Anda di halaman 1dari 15

1.

MENCARI STUDI KASUS YANG MENGENAI BIG DATA DENGAN SOLUSI


DATA ANALYTICS YANG DIGUNAKAN UNTUK MENYELESAIKANNYA.
Jurnal.terlampir
a. Apa yang agak data perusahaan ini digunakan. Berapa ukuran data
b. Alat teknologi apa yang mereka gunakan untuk memproses data
c. Apa masalah yang mereka hadapi dan bagaimana wawasan mereka mendapatkan data
membantu mereka untuk menyelesaikan masalah.
d. Bagaimana mereka memilih alat \ teknologi yang sesuai dengan kebutuhan mereka.
e. Pola apa yang mereka identifikasi dari data & pola apa yang mereka cari dari data.

Outlet berita cenderung menggunakan "Big Data" dengan cukup longgar. Vendor
biasanya memberikan studi kasus seputar produk spesifik mereka. Tidak ada banyak di luar
sana untuk implementasi open source, tetapi mereka disebutkan. Sebagai contoh, Apache
tidak akan menghabiskan banyak waktu membangun studi kasus tentang hadoop, tetapi
vendor seperti Cloudera dan Hortonworks mungkin akan melakukannya.

Berikut adalah contoh studi kasus dari Cloudera di sektor keuangan.


Mengutip penelitian:
Satu konglomerat jasa keuangan global utama menggunakan Cloudera dan Datameer untuk
membantu mengidentifikasi aktivitas perdagangan jahat. Tim dalam grup manajemen aset
perusahaan melakukan analisis ad hoc pada umpan harian harga, posisi, dan informasi
pesanan. Memiliki analisis ad hoc untuk semua data rinci memungkinkan grup untuk
mendeteksi anomali di kelas aset tertentu dan mengidentifikasi perilaku yang mencurigakan.
Pengguna sebelumnya hanya mengandalkan alat spreadsheet desktop. Sekarang, dengan
Datameer dan Cloudera, pengguna memiliki platform yang kuat yang memungkinkan mereka
untuk menyaring lebih banyak data lebih cepat dan mencegah potensi kerugian sebelum
mereka mulai.
Bank ritel terkemuka menggunakan Cloudera dan Datameer untuk memvalidasi keakuratan
dan kualitas data seperti yang disyaratkan oleh Dodd-Frank Act dan peraturan lainnya.
Mengintegrasikan data pinjaman dan cabang serta data manajemen kekayaan, inisiatif
kualitas data bank bertanggung jawab untuk memastikan bahwa setiap catatan akurat. Proses
ini termasuk menjadikan data lebih dari 50 kewarasan data dan pemeriksaan kualitas. Hasil
pemeriksaan tersebut cenderung terus-menerus untuk memastikan bahwa toleransi untuk
korupsi data dan domain data tidak berubah secara merugikan dan bahwa profil risiko yang
dilaporkan kepada investor dan badan pengatur adalah bijaksana dan sesuai dengan
persyaratan peraturan. Hasilnya dilaporkan melalui dashboard kualitas data ke Chief Risk
Officer dan Chief Financial Officer,
Saya tidak melihat studi terkait keuangan lainnya di Cloudera, tetapi saya tidak mencari
dengan keras. Anda dapat melihat perpustakaan mereka di sini.
Juga, Hortonworks memiliki studi kasus tentang Strategi Perdagangan di mana mereka
melihat penurunan 20% dalam waktu yang dibutuhkan untuk mengembangkan strategi
dengan memanfaatkan K-means, Hadoop, dan R.
2. MENCARI STUDI KASUS YANG MENGENAI MODEL MODEL DATA
ANALYTICS DENGAN HIGH DIMENSIONAL DATA, NETWORK DATA DAN
TEXT DATA

Data analytics adalah ilmu untuk menggali wawasan yang dapat ditindaklanjuti dari koleksi
data besar (big data) untuk membantu orang atau organisasi membuat keputusan yang lebih
baik. Analisis data menggunakan teknik dari pembelajaran mesin, kecerdasan buatan,
statistik, dan pemrosesan bahasa alami untuk menemukan pola dalam data dan
memanfaatkan alat-alat dari visualisasi data dan interaksi komputer manusia untuk membuat
pola-pola ini dapat dimengerti oleh pengguna (http://dit.ie/computing/research/).

Data analytics dapat digambarkan sebagai pemeriksaan mendalam tentang makna dan fitur-
fitur penting yang tersedia data, untuk mengidentifikasi informasi penting, menggunakan
metode dan teknik khusus. Ini adalah inter disipliner domain yang mencakup cabang
keilmuan seperti komputer sains (ilmu komputer), ilmu matematika statistik, ekonomi,
psikologi, hukum dan ilmu kognitif lainnya (Adrian Banarescu, 2015).

Berdasarkan hasilnya data analytics terbagi menjadi tiga jenis yaitu descriptive analytics,
predictive analytics, dan prescriptive analytics (SAS, 2016).

Descriptive analyticsadalah proses data analytics untuk mendapatkan gambaran umum dari
data yang sudah dikumpulkan. Ini adalah model yang akan membantu untuk memahami apa
yang terjadi dan mengapa. Contoh dari descriptive analytics adalah Google Analytics. Pada
Google Analytics hanya bisa melihat informasi sederhana seperti ada berapa jumlah visitor
per satuan waktu, halaman mana saja yang paling sering dikunjungi. Analisis deskriptif tidak
menampilkan prediksi halaman apa yang akan dikunjungi pengunjung berikutnya atau
kenapa seorang pengunjung mengunjungi suatu halaman.
Predictive analytics adalah data analytics yang memberikan hasil prediksi tentang sesuatu
yang akan datang dengan peningkatan daya komputasi dengan kemampuan menjalankan
ratusan atau ribuan model dengan cepat dan adopsi teknik prediktif seperti support vector
machines, neural networks dan random forests. Model-model ini menggunakan data masa
lalu dan algoritma prediksi untuk membantu dalam menentukan probabilitas dari apa yang
akan terjadi berikutnya. Contohnya adalah sistem rekomendasi yang dipakai di situs e-
commerce Dari data pengunjung dan pembelian, maka bisa diperkirakan barang apa saja
yang pengunjung sekiranya tertarik untuk membeli. Pada analytics jenis ini mulai diperlukan
machine learning untuk menafsirkan data yang telah dikumpulkan sehingga tidak bisa
langsung melakukan operasi penjumlahan atau rata-rata seperti pada descriptive analytics.
Prescriptive analytics adalah proses analytics yang menghasilkan jawaban atas pertanyaan
kenapa sesuatu akan terjadi serta memberikan saran terhadap kondisi yang kemungkinan
akan terjadi dimasa yang akan datang. Kunci untuk prescriptive analytics adalah mampu
menggunakan data besar, data kontekstual dan banyak daya komputasi untuk menghasilkan
jawaban secara real time. Karena kemampuannya inilah prescriptive analytics sangat
diperlukan oleh top-level manajemen dalam mengambil keputusan. Dalam prosesnya cukup
sulit untuk membuat sistem yang menggunakan analytics preskriptif mengingat algoritmanya
harus benar-benar dapat melihat yang tak terlihat dari hasil analytics Selain itu juga
mempertimbangkan semua opsi untuk pengambilan keputusan. Untuk mencapai hal ini
machine learning sudah pasti menjadi hal yang mutlak digunakan.

DAFTAR PUSTAKA

Adrian Banarescu. (2015). Detecting and Preventing Fraud with Data Analytics. Procedia
Economics and Finance 32 (2015) 1827 – 1836
Data Analytics. 2018. http://dit.ie/computing/research/. diakses 3 November 2018.

Penulis:
Astari Retnowardhani, PhD
Tiswa Ramdani, MMSI
3. MENCARI DATA SET YANG SESUAI DENGAN MODEL DATA DIATAS

Big Data Analytics


Sebelum membahas lebih jauh mengenai analytics, mari bahas terlebih dahulu apa itu big
data. Big data merupakan istilah khusus yang digunakan untuk data yang melebihi kapasitas
pemrosesan database konvensional.

Hal itu karena data itu berjumlah telalu besar, bergerak terlalu cepat, dan tidak sesuai dengan
kemampuan struktural dari arsitektur database tradisional.

Big data disiapkan oleh perusahaan-perusahaan besar, firma ataupun organisasi. Data-data ini
diambil, diolah, dan digunakan oleh perusahaan untuk kepentingan tertentu.

Nah, keseluruhan proses untuk mengumpulkan, merapikan, menganalisis big data yang
disebut dengan big data analytics.
Banyak manfaat dari big data analytics khususnya untuk perusahaan. Salah satunya adalah
untuk mengidentifikasi kesempatan-kesempatan baru.

Contohnya, jika ada sponsored post yang lewat di timeline Instagram kamu dengan
preferensi yang sesuai denganmu. Pasti kamu akan langsung membukanya kan?

Nah, kesempatan baru ini yang dimanfaatkan oleh perusahaan dengan menggunakan big
data. Selain mereka diuntungkan, customer pun juga senang karena ada rekomendasi yang
sesuai dengan kebutuhan dan kesukaan mereka.

1. Iris Dataset
Dataset Iris merupakan dataset multivariate yang diperkenalkan oleh ahli statistika dan
biologi inggris, Ronald Fisher, pada tahun 1936. Dataset bunga Iris ini sangat terkenal di
dunia Machine Learning yang digunakan untuk klasifikasi. Dataset ini terdiri dari 3 spesies
Iris yaitu Iris Setosa, Iris Virginica, dan Iris Versicolor dan tiap spesiesnya memiliki 50
sampel. Dalam data Iris terdapat 4 atribut yang dapat mempengaruhi klasifikasi yaitu, sepal
length, sepal width, petal length, dan petal width dalam centimeter yang berbeda-beda.

2. Twitter Sentiment Analysis Dataset


Sentiment Analysis merupakan salah satu aplikasi populer dalam Natural Language
Processing (NLP) dan untuk membangun model analisis sentiment, dataset ini akan sangat
membantu. Dataset inu pada dasarnya berupa pemrosesan teks pada data dengan bantuan
Machine Learning dalam membangun model. Pada dasarnya dataset ini terdiri dari tiga
kolom utama yaitu, ItemID, Sentimen, dan SentimenText. Dan terdiri dari tiga jenis data
yaitu netral, positif, dan negatif.

3. Youtube Dataset
Dataset video Youtube didasarkan pada informasi video-video yang ada di Youtube. Dataset
ini membantu dalam membuat model klasifikasi video menggunakan algoritma Machine
Learning. Kumpulan data ini akan membantu meningkatkan kualitas dari anotasi dan
pelabelan yang dihasilkan dari database. Dataset ini memiliki kumpulan data berlabel dengan
skala yang besar dan berkualitas tinggi. Dalam kumpulan data tersebut, video akan diambil
sampelnya secara seragam. Dataset ini tersedia dalam format CSV (Comma-separated value)

4. HUBUNGAN/PATTERN DATA
Data Curah Hujan Bandung
5. MEMAHAMI CARA KERJA FACEBOOK ATAU GOOGLE DALAM MENGOLAH
DATA DALAM SKALA BESAR (BIG DATA) DARI SEGI ALGORITMA MAUPUN
KOMPLEKSITAS SISTEM

Big data adalah kumpulan data yang lebih besar dan lebih kompleks, sehingga
tidak memungkinkan jika menggunakan pengelola data yang sederhana. Data ini sangat
banyak, terutama dari data-data yang terbaru. Singkatnya adalah pengumpulan dan
penggunaan informasi yang kemudian dikumpulkan, dianalisa, serta mengerti akan data-
data tersebut. Biasanya yang menggunakan big data analytical adalah perusahaan atau
jaringan yang jangkauannya luas dan mempunyai banyak jaringan. Contohnya adalah
Facebook.
Facebook sendiri adalah perusahaan data yang bergerak di layanan jaringan data
dan sosial media, karena Facebook mempunyai sistem jaringan yang besar serta luas
sehingga harus menggunakan big data analytical untuk memahami pola interaksi dan
korelasi suatu hubungan satu dengan yang lainnya. Biasanya, pakar big data analytical
Facebook membaca atau menganalisa pola interaksi user berdasarkan data serta aktivitas
yang user lakukan. Dari sistem atau siklus Facebook, ini membuat perusahaan Facebook
sendiri paham tentang kebutuhan user yang mana menjadi “konsumsi” perusahaan,
Facebook pun juga menampilkan atau menyajikan apa yang sesuai user lakukan di laman
Facebook.
Facebook mempunyai fitur untuk menambahkan identitas di profil dan
menambahkan teman. Setiap harinya ada sekitar 10 miliar pengguna mengirim pesan
melalui Facebook, 4,5 miliar mengklik tombol like, dan 350 juta gambar yang diunduh
setiap harinya. Sehingga bisa kita ketahui, facebook memiliki kapasistas yang sangat
besar untuk menyimpan data penggunanya.
Contoh: User mengupload foto di tanggal 27 November 2018, maka ketika di tahun
berikutnya momen itu bisa diingatkan kembali oleh Facebook di notifikasi akun user
tersebut. Kemudian, adanya fitur “like”, dimana membantu Facebook dalam menganalisis
kebutuhan atau permasalahan seputar konsumen yang biasanya muncul pada halaman
utama/laman/beranda.
Permasalahan yang sering timbul di dunia Facebook adalah cepatnya penyebaran
berita hoax. Tidak menampik bahwa penyebaran melalui sosial media secepat itu,
sehingga fakta belum juga terbuktikan, hoax tersebut sudah lebih dulu tersebar. Fitur
yang tersedia di Facebook itu sendiri juga yang orang-orang dengan mudahnya
menyebarkan. Yaitu fitur “share” atau “like” atau “repost” atau sejenisnya yang
memudahkan user untuk menyebarkan konten yang mungkin belum pasti keabsahannya
Facebook merupakan perusahaan data yang didirkan 4 Februari 2004 oleh Mark
Zuckerberg yang bergerak dalam layanana jejaring sosial. Facebook erat kaitannya
dengan penggunaan Big Data Analytical, yang merupakan suatu proses untuk meneliti
serta mengolah data set yang skalanya cukup besar sehingga mendapatkan suatu pola
interaksi, serta korelasi suatu hubungan satu dengan yang lainnya.
Pada facebook, user/pengguna dapat menambahkan identitas pribadi pada
profilnya, menambahkan teman dengan rekomendasinya, serta fitur-fitur lainnya. Hal itu
yang membuat pakar big data analytical dapat membaca atau melihat pola interaksi
pengguna berdasarkan data serta aktivitas yang pengguna lakukan. Sehingga,
menimbulkan suatu permasalahan baru bagi facebook. Menurut artikel yang dimuat
dalam simpllearn, penggunaan social platform terbesar adalah facebook, yang digunakan
oleh para marketers dalam menunjang suatu bisnis nya.

1. Objective, problems, solution idea


Fitur dalam facebook memungkinkan pengguna untuk mengunduh, akan tetapi
apabila pengguna menghapus foto tersebut, tidak akan terhapus secara permanen
dikarenakan facebook menyimpannya dalam sebuah server, begitupun dengan
penghapusan account user facebook. Sehingga hal tersebut menimbulkan permasalahan,
dimana pengguna menginginkan penghapusan secara permanen Selain itu, dengan data-
data pengguna yang tercantum dalam profil facebook, membuat privacy pengguna
berkurang.
7Vs big data yang terdapat dalam facebook:
a. Volume
Hal ini berkaitan dengan seberapa banyak data yang dihasilkan setiap detik. Setiap
harinya ada sekita 10 miliar pengguna mengirim pesan melalui facebook, 4.5 miliar
mengklik tombol like, dan 350 juta gambar yang diunduh setiap harinya. Sehingga
bisa kita ketahui, facebook memiliki kapasistas yang sangat besar untuk menyimpan
data penggunanya. (sumber: artikel simplylearn)
b. Velocity, menggambarkan laju pertumbuhan maupun perubahannya. Facebook dapat
mengetahui hal apa saja yang sedang terjadi di masyarakat.
c. Veracity, mengacu pada kekacauan atau kepercayaan dari data. Dengan berbagai
bentuk data yang besar dan jumlah nya yang banyak, tidak semua data akurat/benar.
d. Value, mengacu pada nilai yang didapatkan dari data yang ada. Dengan kata lain, data
yang ada bisa menjadi suatu informasi yang bernilai bagi kalangan yang
mebutuhkannya.
2. Methodology used explain
Penggunaan big data dalam facebook dapat dilihat dari perusahaan melihat data
dari masa lalu, untuk masa mendatang. Misal, ketika pengguna menggugah foto di
tanggal 9 september 2016, maka ketika ditahun berikutnya momen itu bisa diingatkan
kembali oleh facebook kepada pengguna. Kemudian, adanya ‘I voted” dimana membantu
suatu perusahaan dalam menganalisis kebutuhan atau permasalahan seputar konsumen
dan usahannya.
Model yang digunaka facebook dalam menggunakan big data adalah asosiasi,
yaitu dengan menganalisis hubungan yang terjadi dalam suatu jaringan sosial. Dengan
model asosiasi ini, facebook dapat mengetahui serta menganaisis suatu jaringan, hingga
akhirnya mengambil suatu keputusan.
Untuk methodology yang digunakan, facebook menggukana Hadoop. Berikut
gambar secara singkat system kerja hadoop:

Dalam penggunaan big data facebook memiliki API, yang merupakan sekumpulan
perintah, fungsi, dan protocol yang dapat digunakan oleh programmer saat membangun
perangkat lunak untuk system operasi tertentu. Sehingga dengan API, programmer dapat
mengambil data pengguna melalui aplikasi visualisasi (salah satunya Gephi), yang
sebelumnya harus dibuat datasets nya (bisa dengan R studio)
3. Model measurement, accuracy
Facebook menggunakan jasa dari hadoop dalam mengembangkan usahanya.
Hadoop bekerja dengan cara memproses data – data dengan skala yang besar. Hadoop
cluster terdiri dari set hardware-hardware komoditas yang murah yang dihubungkan satu
sama lainnya, dan disimpan di lokasi yang sama. Prinsip kerja hadoop adalah scale out,
yaitu adanya penambahan/penghapusan node , dimana hadoop mengikat setiap node
menjadi sebuah system yang terdistribusi. Hadoop dirancang untuk mengalirkan file-file
besar dan jumlah data yang besa. Alasan mengapa perusahaan facebook menggunakan
hadoop, diantaranya adalah:
a. Hadoop dapat memprose data dalam skala besar (petabyte)
b. Efisien, dapat diandalkan dan resmi dari Apache
Facebook menggunakan hadoop sebagai system rekomendasi dan penyimanpan
data di gudang. Keakuratan dalam hadoop untuk memproses data dpada facebook, bisa
dilihat dari :
a. Banyak nya data secara umum yang ada pada facebook
b. Hadoop menemukan bahwa 300juta lebih pengguna yang aktif menggunakan
facebook
c. Setiap harinya, 30 juta pengguna update status
d. Setiap bulan, lebih dari 100 juta pengguna menggugah foto, dan setiap bulannya
hampir 10juta miliar video yang diunggah
e. Setiap minggu terdapat 1 miliar konten baik itu dari link website, blog, yang di share
oleh pengguna.
Dengan facebook, kita dapat mengukur beberapa hal, diantaranya:
1. Degree centrality : Untuk mengetahui seberapa berpengaruh seseorang dalam
facebook di dalam suatu jaringannya.
2. Eigenvector centrality : Semakin direferensikan semakin besar nilai yang akan
didapatkannya
3. Closeness centrality: Untuk mengatahui kedekatan antara node dalam jaringan yang
terdapat pada facebook
4. Betweeness centrality : untuk mengetahui siapa yang berperan sebagai perantara
dalam jaringan suatu node tersebut.
6. Mencari data Social Network melalui crawling ataupun data set yang tersedia, membuat
model, membuat visualisasi, menghitung metrik, dan mengintepretasikan hasil yang di
peroleh.
1.Aplikasi Crawler / Crawling
Aplikasi crawling adalah suatu aplikasi yang digunakan untuk pengambilan data digital secara
mendalam,
berbeda dengan scraper yang hanya mengambil data pada permukaan saja, crawler umum
digunakan oleh web mesin
pencari seperti Google, Yahoo dan sebagainya, yang bertujuan untuk memetakan konten/isi pada
seuatu halamen web
dan dipetakan pada index, dalam lingkup aplikasi yang penulis buat, crawler bertujuan untuk
mengambil data secara
sistematis, efektif serta efisien pada Twitter melalui API (Application Programing Interface)
yang sudah disediakan
oleh Twitter[7].
2. Twitter
Twitter adalah layanan jejaring sosial dan mikroblog online yang memungkinkan penggunanya
untuk mengirim
dan membaca pesan berbasis teks hingga 140 karakter, yang dikenal dengan sebutan kicauan
(tweet / twit). Twitter
didirikan pada bulan Maret 2006 oleh Jack Dorsey, dan situs jejaring sosialnya diluncurkan pada
bulan Juli. Sejak
diluncurkan, Twitter telah menjadi salah satu dari sepuluh situs yang paling sering dikunjungi di
Internet.
3 .Non-blocking I/O
Non-Bloking I/O processing atau Asynchronous processing atau parallel processing adalah suatu
cara menipulasi
dan pengendalian suatu antrian proses pada suatu layer aplikasi, saat ini sebuah processor
computer telah dibuat
menjadi bagian bagian kompleks yang menerapkan konsep MPSoC ( Multi Proccessor System-
on-a Chip )[10],
dimana kita dapat menjalankan berbagai proses dalam satu waktu. Dengan demikin suatu proses
tidak akan menjadi
hambatan untuk proses lainya, karena proses lain bisa di-handle oleh unit pemroses lain, dengan
demikian pembuatan
aplikasi dengan menerapkan konsep Non-blocking I/O menjadi lebih efektif & efisien karena
akan mengurangi jumlah
waktu eksekusi [6,3].
4. Node js
Node js adalah platform yang dibangun di atas runtime Javascript yang ada pada chrome yang
berguna untuk
proses development aplikasi secara cepat dan efisien serta mempermudah pembangunan aplikasi
berbasis jaringan
yang memiliki scalability ( daya pengembangan ) yang tinggi, Node Js menggunakan event-
driven non-blocking I/O
model yang membuat Node Js ringan dan efisen, cocok untuk aplikasi data-intensive realtime
yang berjalan pada
cross platform[2].
5. Perancangan
Guna memecahkan masalah yang diuraikan di atas maka dibuatlah aplikasi Sosial Media Crawler
( Twitter )
Menggunakan Node JS Memanfaatkan Non-Blocking I/O dengan arsitektur sebagaimana
digambarkan pada Gambar
Gambar 1 Arsitektur Aplikasi
1. Aplication, Aplication Server & Storage
Aplikasi berjalan pada serbuah server dengan storage untuk menyimpan data , aplikasi
mengambil data yang
berada di server Twitter dengan penggunakan HTTP Request API yang telah di sediakan oleh
Twitter, kemudian data ditampung di aplikasi (memory) yang lalu write stream ke file dengan
format JSON
(Javascript Object Notation).
2. Twitter Public API
Adalah suatu interface yang disediakan oleh Twitter bagi user dan pengembang guna
mendapatkan data
publik Twitter [1].
Alur proses crawl aplikasi:
1. Aplikasi memulai proses crawl
2. Aplikasi membaca konfigurasi CPU atau unit promroses pada sistem aplikasi yang telah di-
setting
Aplikasi membaca & menghitung konfigurasi CPU pada sistem node / server
3. Melakukan pengecekan, apakah jumlah CPU pada sistem aplikasi lebih banyak dari pada
jumlah CPU yang
ada pada node / server
a. YA : Variabel worker akan di-set sesuai konfigurasi aplikasi, setting dimasukan dari menu
Setting
> general setting
b. TIDAK : Variabel worker akan di-set sesuai dengan jumlah CPU pada node / server
4. Fork proses pekerja ( worker ) sesuai dengan variabel worker
5. Membuat antrian keyword dan antrian token berdasarkan parameter yang sudah di input pada
masing masing
menu “Keywords” dan “Tokens”
6. Melakukan pendaftaran proses crawler pada masing masing worker yang idle
7. Melakukan pengecekan, adanya signal hentikan crawling?
a. YA : Menghapus antrian
b. TIDAK : Melanjutkan crawling
8. Melakukan pengecekan, adanya antrian dalam pool?
a. YA : Kembali proses nomor 7
b. TIDAK : Menghapus antrian
9. Matikan proses worker
Alur dan proses forking dari sub proses 1 ( Gambar 2 ) Fork Proses Pekerja, pada tahap ini main
proses akan
mengirim perintah untuk melakukan forking worker proses sebanyak variabel worker.
Menggunakan perintah
require(‘child_proces’).fork() pada perulangan CPU dijelaskan pada Gambar 3.

Anda mungkin juga menyukai