Anda di halaman 1dari 11

1.

STUDI BIG DATA DENGAN SOLUSI DATA ANALYTIC YANG


DIGUNAKAN UNTUK MENYELESAIKANNNYA
Big data merupakan istilah khusus yang digunakan untuk data yang melebihi
kapasitas pemrosesan database konvensional.
Hal itu karena data itu berjumlah telalu besar, bergerak terlalu cepat, dan tidak sesuai
dengan kemampuan struktural dari arsitektur database tradisional.
Big data disiapkan oleh perusahaan-perusahaan besar, firma ataupun organisasi. Data-
data ini diambil, diolah, dan digunakan oleh perusahaan untuk kepentingan tertentu.
Nah, keseluruhan proses untuk mengumpulkan, merapikan, menganalisis big data yang
disebut dengan big data analytics.
Banyak manfaat dari big data analytics khususnya untuk perusahaan. Salah satunya
adalah untuk mengidentifikasi kesempatan-kesempatan baru.
Contohnya, jika ada sponsored post yang lewat di timeline Instagram kamu dengan preferensi
yang sesuai denganmu. Pasti kamu akan langsung membukanya kan?
Nah, kesempatan baru ini yang dimanfaatkan oleh perusahaan dengan
menggunakan big data. Selain mereka diuntungkan, customer pun juga senang karena ada
rekomendasi yang sesuai dengan kebutuhan dan kesukaan mereka.
Jadi, big data analytics dapat dikatakan dapat menguntungkan dua pihak,
pihak customer dan perusahaan. Selain itu, ada juga keuntungan lain dari big data, lho! Apa
saja itu?
1. mengurangi biaya produksi
2. mempercepat mengambil keputusan
3. mempermudah pembuatan produk baru sesuai dengan keinginan dan ekspektasi
target market
Cara Kerja Big Data Analytics
Tidak ada satu aplikasi khusus yang bisa membuat big data terkumpul secara
sendirinya. Hal ini dilakukan dengan beberapa cara serta gabungan dari beberapa aplikasi
atau software untuk bisa mengumpulkan semuanya.
Jadi, bagaimana cara kerja dari big data analytics?
1. Machine learning
Untuk mengumpulkan data, mesin yang berbasis AI digunakan sebagai mesin
pencarian. Mesin ini dengan cepat mencari serta mempelajari data yang akan diambil.
Secara otomatis mesin akan menghasilkan model lain yang bisa menganilisis data lebih besar,
kompleks, akurat, serta penyampaian yang lebih cepat lagi.
2. Data management
Sebelum memberikan data ke dalam perusahaan, data harus dikaji ulang dan
dipastikan kepada instansi terkait.
Hal ini diperlukan agar data yang digunakan merupakan data yang berkualitas tinggi
dan bukan merupakan data palsu yang dibuat-buat.
3. Data mining
Teknologi data mining berfungsi agar para data analyst memeriksa data berskala besar
untuk menemukan pola-pola di dalam sebuah data. Hasil dari analisis ini dapat digunakan
untuk menjawab pertanyaan-pertanyaan rumit perusahaan.
Dengan adanya teknologi data mining, para analyst dapat masuk ke dalam berbagai
data, menandai hal-hal penting, serta membuat data menjadi salah satu solusi untuk
mempengaruhi pengambilan keputusan.
4. Hadoop
Merupakan nama salah satu teknologi yang digunakan untuk menyimpan data dalam
jumlah yang sangat besar. Hadoop sendiri merupakan open-source-software yang dapat
digunakan untuk menyampaikan data secara cepat.
5. In-memory analytics
Dengan menganalisis data menggunakan teknologi memori dalam sistem, para data
analyst bisa mendapatkan insight sebuah data secara cepat.
Teknologi ini dapat menganalisis secara cepat, membuat algoritma baru, menciptakan
model baru serta menghapus analisa yang dianggap keliru.
Teknologi ini diklaim bukan hanya dapat mempengaruhi pengambilan keputusan
sebuah perusahaan, tetapijuga menciptakan berbagai skenario sebagai bahan pembelajaran.
6. Predictive analytics
Teknologi prediksi ini menggunakan data, alogritma statistik, teknik machine-
learning untuk mengidentifikasi outcomes berdasarkan riwayat data yang pernah digunakan.
Predictive analytics akan menghasilkan prediksi-prediksi yang akan terjadi di masa depan,
sehingga para perusahaan akan lebih percaya diri dengan keputusan apa yang akan mereka
ambil nantinya.
7. Text mining
Dengan teknologi ini, data analyst dapat menganalisa dari tulisan yang berada di web,
kolom komentar, buku, dan bagian web lainnya yang berbasis teks.
Biasanya text mining akan dipasang dalam blog, Twitter, survey, bahkan email untuk
menemukan topik terhangat yang dapat menciptakan relasi perusahaan kepada (calon)
pelanggannya.
Langkah Penerapan Big Data Analytics
Dilansir dari Payumoney ada enam langkah dalam penerapan big data analytics. Langkah-
langkah ini biasanya disebut sebagai The 6 Steps. Apa saja itu?
1. Data mining
Ada dua hal yang difokuskan dalam big data analytics yaitu data mining dan data
extraction.
Secara sederhana, data extraction adalah sebuah proses pengumpulan data dari halaman web
ke dalam database. Sementara itu, data mining adalah sebuah proses identifikasi
dari insight yang berharga dari database.
2. Data collection
Big data tidak memiliki tombol “End”, sehingga data yang masuk ke
dalam database akan terus bertambah seiring dengan pertumbuhan dunia.
Tidak hanya bertambah karena adanya data baru, data extraction harus terus dilakukan untuk
mengumpulkan perubahan data yang terjadi dari tiap orang.
Data extraction akan memberikan info sedetail-detailnya dari setiap orang dan menciptakan
berbagai macam skenario.

3. Data storing
Menyimpan sebuah data, apalagi data yang besar tentunya tidak bisa sembarangan.
Storage untuk penyimpanan data yang baik menyediakan infrastruktur yang memiliki mesin
analisis data terbaru. Tak hanya itu, storage yang baik juga serta ruang penyimpanan dengan
ukuran besar.
Banyak software yang digunakan untuk menyimpan data berskala besar. Beberapa contohnya
adalah Hadoop, Cloudera, dan Talend.
4. Data cleaning
Data yang didapat dari proses big data analytics didapatkan secara keseluruhan
melalui internet. Dari 100% data yang sudah didapatkan, kemungkinan ada 30%-40% data
yang tidak akurat dan tidak dibutuhkan oleh perusahaan.
Maka dari itu, dibutuhkan data cleaning alias pembersihan data untuk menyaring data mana
yang dibutuhkan atau tidak. Dari hal ini, data analyst tak perlu repot menganalisa dan
mengira-ngira lagi data mana yang harus dipakai.
Melalui langkah ini, data analyst akan langsung mendapatkan data yang sesuai dengan
kemauan perusahaan karena sudah tersortir secara otomatis.
5. Data analysis
Bagian terbesar dari big data analytics tentu saja analisis data. Ketika menganalisis
data, data analyst akan masuk ke dalam pola sampai kebiasaan para audiens dan mencari
mana yang paling dibutuhkan oleh klien.
Analisi merupakan proses mempertanyakan pertanyaan yang spesifik dan mencari jawaban
yang benar. Qubole dan Statwing diklaim menjadi alat analisis yang sangat powerful untuk
proses ini.
6. Data consumption
Data digunakan untuk keperluan dan kebutuhan yang berbeda oleh perusahaan,
pemerintah, instansi bahkan organisasi.
Pertanyaannya, apakah semua orang dapat mengakses big data dan membuka data
lewat internet? Tentu saja tidak bisa. Untuk melakukannya dibutuhkan data analyst yang
handal dan mengerti bagaimana mengolah sebuah data.
2. Mencari Studi kasus yang mengenai model-model Data Analytic dengan High
Dimensional Data, Network Data dan Text Data.

1. Sekilas mengenai Big Datadan Data Analitik


1.1. Pengertian Big Data dan Data Analitik
Big Data merupakan merupakan istilah untuk menggambarkan data set yang besar
baik Structured, Semi-Structured maupun Unstructured data
(noviardisyamsuir.blogspot.co.id, diakses pada 23 Agustus 2016).
Sedangkan menurut Alamsyah (2016) Big Datamerupakan kumpulan data yang
sangat besar atau kompleks jika menggunakan pemrosesan data tradisional. Tantangan
dalam Big Dataialah menganalisis data, meng-kurasi data, sharing, storage, transfer,
dan visualization.
Data Analitik merupakan ilmu dan seluruh aktivitas untuk merubah data menjadi
informasi serta menemukan pola data untuk kemudian digunakan oleh berbagai
perusahaan untuk membuat dan mengambil keputusan bisnis yang lebih baik
(http://andrya.staff.telkomuniversity.ac.id, diakses pada 23 Agustus 2016).
1.2. Tiga Jenis Format Data dalam Big Data
Berdasarkan pengertian, terdapat tiga jenis format data dalam Big Data sebagai
berikut:
a. Structured Data, seperti relational database (RDBMS);
b. Semi-Structured Data, seperti XML, Jason;
c. Unstructured Data, seperti Dokumen, Metadata, video, gambar, audio, file, teks, e-
books, social media, email message dan lain lain
(http://noviardisyamsuir.blogspot.co.id, diakses pada 23 Agustus 2016).
1.3. Latar Belakang Masalah
Terdapat beberapa alasan diperlukannya Big Data sebagai berikut (Alamsyah,
2016):
a. Individu memrpoduksi data yang banyak tiap harinya (dari UGC mobile habit);
b. Saat ini telah memasuki era digitaldimana setiap individu hidup pada lingkungan
digital;
c. Menemukan pola tak terduga sangat menarik dan menyenangkan;
d. Kebutuhan untuk menemukan Large Scale of DataWarehouse.
1.4. Big Data Properties
Big Data juga dapat didefinisikan dalam 4V yaitu (Alamsyah, 2016):
a. Volume, berarti data set yang disimpan dalam skala yang besar;
b. Velocity, berarti ada kebutuhan mengakses data set tersebut dengan cepat;
c. Variety, berarti format datanya yang bervariasi;
d. Veracity, berarti datanya yang sangat besar membuat ketidakpastian sehingga sulit
membedakan mana data yang berbobot dan tidak.

Gambar 1.1. 4V dari Big Data


(Sumber: www.dreamstime.com)
Dari 4V tersebut, muncul suatu complexity dimana data yang diproses tidak berjalan
sesuai dengan waktu ( y=x 2), dimana waktu digambarkan oleh grafik y dan data
digambarkan oleh grafik x
1.5. Problem pada Big Data
Menurut Alamsyah (2016), terdapat empat masalah pada Big Data yaitu sebagai
berikut:
a. Tremendous amount of data, sangat besar dan scalable;
b. Highly dimension of data, sudah lebih dari jutaan data;
c. Highly complexity of data;
d. New and sophisticated application
1.6. Big Data Analytics Constructor
Menurut Alamsyah (2016), terdapat tiga metode dalam melakukan Big Data
Analytics yaitu sebagai berikut:
a. Social Network;
b. Data Mining, merupakan suatu proses menemukan hubungan yang berarti, pola,
dan kecenderungan dari sekumpulan besar data dengan menggunakan teknik
pengenalan pola seperti statisik dan matematika. Biasanya data yang dianalisis
yaitu Structured Data (http://noviardisyamsuir.blogspot.co.id, 2016);
c. Text Mining, merupakan proses menganalisis data teks (Unstructured Data) seperti
blog, email, tweet, dan bentuk lainnya (http://noviardisyamsuir.blogspot.co.id,
2016);

2. Contoh Case Study Penggunaan Big Data


a. Lembaga keuangan dapat menggunakan analisis big data agar cepat mengidentifikasi
potensi penipuan sebelum menjadi besar efeknya, sehingga meminimalkan resiko
kerugian secara finansial;
b. Pemerintahan dapat manfaatkan analisis big data untuk meningkatkan keamanan
negara dengan mampu mendeteksi, mencegah dan melawan serangan cyber;
c. Industri kesehatan dapat menggunakan analisis terhadap big data untuk meningkatkan
layanan perawatan pasien dan menemukan cara yang lebih baik untuk mengelola
sumber daya dan personil;
d. Perusahaan telekomunikasi dapat memanfaatkan analisis big data untuk mencegah
churn pelanggan, dan juga merencanakan cara terbaik untuk mengoptimalkan jaringan
nirkabel baik yang baru maupun yang sudah ada;
e. Marketing dapat menggunakan big data untuk melakukan analisis sentimen untuk
mengetahui tingkat kepuasan pelanggan terhadap produk dan layanan yang dipasarkan;
f. Perusahaan asuransi dapat menggunakan analisis big data untuk mengkategorikan
pengajuan asuransi yang dapat segera diproses, dan mana yang perlu divalidasi dengan
dilakukan kunjungan oleh agen asuransi;
g. Perusahaan ritel dapat menggunakan informasi dari social media seperti Facebook,
Twitter, Google+ yang disimpan dengan teknologi big data, yang selanjutnya
digunakan untuk menganalisis bagaimana perilaku, persepsi pelanggan terhadap suatu
produk atau brand dari perusahan.
h. Kominfo dapat mempercepat proses monitoring kebijakan publik melalui berita yang
ada di mass media dalam jumlah yang besar.
3. Case Study 1
3.1. Judul Studi Kasus Implementasi Big Data
Contoh studi kasus implementasi Big Data yang didapatkan penulis yaitu berjudul
“Memanfaatkan Big Data untuk Mendeteksi Emosi”.
3.2. Objektif, Masalah, dan Solusi
a. Objektif
Tujuan dari penulisan jurnal tersebut ialah untuk memanfaatkan data yang tersimpan
pada microblogging Twitter untuk mendeteksi emosi melalui hashtag.
b. Masalah
Sebagian besar penelitian identifikasi emosi saat ini bergantung pada data training
yang dijelaskan secara manual. Penjelasan data manual oleh para ahli memakan
waktu lebih lama. Selain itu, berbeda dengan tugas penjelasan lain seperti entitas
atau deteksi topik, menentukan emosi dalam teks cenderung subyektif dan
bervariasi sehingga kurang dapat diandalkan. Akibatnya sebagian besar dataset
emosi yang ada relatif kecil, dari urutan ribuan entri, yang gagal untuk menyediakan
cakupan yang komprehensif dari peristiwa emosi pemicu dan situasi.
c. Solusi
Solusinya yaitu dengan menggunakan layanan sosial media yang memanfaatkan big
data, yaitu Twitter yang menyediakan lebih dari 340 juta tweet per hari dengan topik
yang berbeda-beda mengenai apa yang terjadi dalam kehidupan sehari-hari. Dalam
hal ini, penulis memanfaatkanfasilitas hashtag yang dapat mewakili suatu emosi
atau perasaaan penggunanya sehingga lebih akurat dibandingkan metode
pendeteksian emosi dengan text.
3.3. Metodologi
Metodologi yang digunakan yaitu dengan praktek sentiment analysis berbasis algoritma
Naive Bayes dan Liblinear. Penulis menggunakan 131 hashtags emosi sebagai kata
kunci dan mengumpulkan 5 juta tweet untuk 7 kategori emosi yaitu sukacita, kesedihan,
kemarahan, cinta, rasa takut, rasa syukur, dan kejutan pada tanggal 10 November 2011
hingga 22 Desember 2011.
Untuk mengumpulkan dan membuat dataset emosi, penulis memanfaatkan twitter
streaming API. Data yang diambil merupakan salah satu dari kata-kata emosi dalam
bentuk hashtags.

3.4. Model, Pengukuran, dan Akurasi


a. Model
Model yang digunakan dalam penelitian ini adalah Text Mining menggunakan
unstructured data dari Twitter perihal kata-kata emosi dalam bentuk hashtags.
Metode yang digunakan yaitu Multinomial Naive Bayes, yaitu metode supervised
learning yang menggunakan nilai probabilitas dalam menentukan suatu kelas dari
objek tertentu. Metode ini dikhususkan pada data berupa teks.
b. Pengukuran
Langkah-langkah:
- Membuat sebuah dataset emosi berlabel dari Twitter dengan mengumpulkan 7
set katakata emosi yang berbeda (misalnya, kata "mengganggu" untuk
marah emosi) dari psikologi literatur yang ada dengan memanfaatkan Twitter
API streaming untuk mengumpulkan tweet yang memiliki salah satu dari
katakata emosi ini dalam bentuk dari hashtag (misalnya,
#menjengkelkan).
- Setiap tweet yang dikumpulkan secara otomatis berlabel dengan satu
emosi sesuai dengan emosi hashtag nya, dan hashtag sendiri dihapus dari
tweet. Sebagai contoh, dari tweet yang masuk "Aku benci ketika ibuku
membandingkan saya ke temanteman saya #menjengkelkan", diperoleh
contoh data berikut: "Aku benci ketika ibuku membandingkan saya ke
temantemanku” diberi label dengan kemarahan, karena
mengandunghashtag "#menjengkelkan".
- Teknikpenyaringan dikembangkan pada set tersebut, penyaringan tersebut
berupa hanya mengambil tweet dengan emosi hashtag diakhir, karena
jika hashtag tidak diakhir kecil kemungkinan adalah emosi penulis.
- Kemudian penyaringan berupa tweet yang memiliki kurang dari lima kata,
karena tidak dapat ditarik kesimpulan bahwa tidak dapat
menyimpulkan sebuah emosi.
- Penyaringan selanjutnya menghapus tweet yang berisi url. Karena tweet
yang mengandung url kecil kemungkanan merupakan luapan emosi
penulis. Sejumlah besar tweet yang berisi url hanyalah sebuah informasi
yang disampaikan oleh penulis.
- Setelah menerapkan penyaringanpada semua tweet akhirnya memperoleh
koleksi 2.488.982 tweet.
- Dari 2.488.982 tweet, secara acak sampel 250.000 tweet sebagai dataset uji Te,
selain itu secara acak sampel 247.798 tweet sebagai dataset pengembangan
untuk tuning algoritma, dan menggunakan 1.991.184 tweet tersisa
(dilambangkan TR) untuk training data.
- Analisa dilakukan dengan data dibagi menjadi delapan TR subset (TR1, TR2,... ,
TR8), masing masing terdiri dari 248.898 tweet.

Atribut yang dihasilkan dari preprocessing:

- Preprocessing adalah proses yang dilakukan terhadap data input sebelum data
tersebut memasuki proses utama. Penelitian ini menggunakan data
preprocessing lowercased.
- Menghitung Precision dan Recall:

c. Akurasi

Anda mungkin juga menyukai