Anda di halaman 1dari 31

Big Data

Tools dan Aplikasinya


Apa itu Big Data?

Big Data: istilah untuk data sangat besar dan kompleks yang tidak
dapat dikelola (capture, store, manage, analyze) dengan software
dan tool pemrograman database biasa/konvensional.

Tidak cukup dengan SQL biasa saja (Relational Database
Management System), sehingga butuh teknologi baru/tambahan
NoSQL (Not only SQL).

Tidak hanya berisi data berstruktur/relational tapi juga (mayoritas)
tidak berstruktur (unstructured).
2
Agenda
• Pengantar Big Data
• Data Mining - Text Mining - Image Mining
• Business Intelligence Tools For Big Data
• Big Data Analytics dengan QlikView

3
Apa yang besar?

Sumber: http://vijjam.blogspot.com
3V – 4V – 5V

Volume: Ukuran data sangat besar dari sisi jumlah yang mencapai Milyaran
Terra Byte = trilyunan GB.

Velocity: Kecepatan data sangat besar dari sisi kemunculan dan perubahan.

Variety: Variasi jenis/tipe data sangat banyak, unstructured dan multi-
structured.

Value: Nilai yang dihasilkan juga sangat besar, dari sisi manfaat dalam
bentuk uang maupun non uang.

Veracity: Kebenaran dan keakuratan informasi yang tidak mudah
dipastikan, misal salah ketik di Twitter. 5
Big Volume
•Volume bertambah secara eksponensial. Pada 2015: 8 Zetta Bytes = 8.000
Peta Bytes = 8 juta Exa Bytes = 8 milyar Terra Bytes = 8 trilyun Giga Bytes. *)

*) Sumber: wipro.com
Big Velocity
Pertambahan (2011):
- Twitter 7 TB/hari
- Facebook 10 TB/hari
Sumber:
bigdatauniversity.com

7
Big Variety

8
Hadoop dan Big Data
• Open-Source Framework untuk memproses himpunan-data berskala
besar (big data) dalam beberapa cluster hardware komputer
• Dikembangkan menggunakan bahasa Java, beberapa menggunakan
C dan utilitas command line sebagai shell-scripts
• Dikembangkan oleh Apache Software foundation ( apache.org )
2007 dibawah lisensi v2 Apache

9
Job Type for Big Data
Job Type Job functions Skill

Hadoop Developer develops MapReduce jobs, Java, Scripting, Linux


designs data warehouses

Hadoop Admin manages Hadoop cluster, Linux administration, Network


designs data pipelines Management, Experience in
managing large cluster of machines

Data Scientist Data mining and figuring out Math, data mining algorithms
hidden knowledge in data

Business Analyst Analyzed data! Pig, Hive, SQL, familiarity with BI 10


tools
Potensi Big Data
• Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini
hampir tak terbayangkan jumlahnya. Data tersebut terus tumbuh tanpa
henti. Sayangnya sampai saat ini, baru sebagian kecil data yang telah
dianalisis.
• Pentingnya Big Data, tidak hanya seputar pada jumlah data yang di miliki,
tetapi hal yang penting adalah bagaimana mengolah data data tersebut
untuk pengambilan keputusan. Misalnya menganalisa data untuk
menemukan jawaban yang diinginkan dalam kegiatan bisnis seperti:
• pengurangan biaya;
• pengurangan waktu;
• pengembangan produk baru dan optimalisasi penawaran produk; dan
• pengambilan keputusan yang cerdas. 11
Informasi
SIM BI - DM
Data
Pengetahu
an

DSS
Aksi
SOP
Kebijakan

12

Siklus Data, Informasi, Pengetahuan dan Kebijakan


Apa itu Data Mining?
• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau
menemukan pola dari suatu data yang besar

• Ekstraksi dari data ke pengetahuan:


1. Data: fakta yang terekam dan tidak membawa arti
2. Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

• Nama lain data mining:


• Knowledge Discovery in Database (KDD)
• Knowledge extraction
• Pattern analysis
• Information harvesting
• Business intelligence 13
Definisi Data Mining
• Melakukan ekstraksi untuk mendapatkan informasi penting yang
sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data
(Witten et al., 2011)

• Kegiatan yang meliputi pengumpulan, pemakaian data historis


untuk menemukan keteraturan, pola dan hubungan dalam set
data berukuran besar (Santosa, 2007)

• Extraction of interesting (non-trivial, implicit, previously


unknown and potentially useful) patterns or knowledge from
huge amount of data (Han et al., 2011) 14
Proses Data Mining
Pattern Evaluation

Data Mining

Task-relevant Data

Data Selection
Warehouse
Pembersihan Data
Data Integration 15

Databases Diambil dari www.cs.uiuc.edu/~hanj


Metode Data Mining
1. Estimation (Estimasi):
• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):
• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi): 16
• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
Pengetahuan (Pola/Model)
1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Rule (Aturan)
3. IF ips3=2.8 THEN lulustepatwaktu

4. Cluster (Klaster)
17
Top Data Mining Software Used

18
http://www.kdnuggets.com/polls/2015/analytics-data-mining-data-science-software-used.html
RapidMiner
• RapidMiner saat ini sudah digunakan dalam berbagai industri termasuk otomotif,
perbankan, asuransi, Ilmu kehidupan, manufaktur, minyak dan gas, retail,
telekomunikasi dan utilitas.
• RapidMiner v6.0 tetap open source. RapidMiner versi terbaru sekarang hanya tersedia
sebagai versi trial atau di bawah lisensi komersial.
• RapidMiner Studio : Sebuah perangkat lunak yang berdiri sendiri yang dapat digunakan untuk
persiapan data, visualisasi dan pemodelan statistik
• RapidMiner Server : Ini adalah sebuah enterprise-grade  dengan repositori sentral yang dapat
meningkatkan bekerja secara team jauh lebih mudah, manajemen proyek dan deployment.
• RapidMiner Radoop : Mengimplementasikan kemampuan analisis Big Data yang berpusat
pada Hadoop.
• RapidMiner Cloud : Sebuah repositori berbasis cloud yang memungkinkan dan memudahkan
berbagi informasi di antara dan berbagai perangkat. 19
Pengenalan Interface
• RapidMiner menyediakan tampilan yang user friendly untuk
memudahkan penggunanya ketika menjalankan aplikasi.
Tampilan pada RapidMiner dikenal dengan istilah Perspective.
Pada RapidMiner terdapat 3 Perspective, yaitu; Welcome
Perspective, Design Perspective dan Result Perspective.
Design Perspective
• Design Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective ini
merupakan perspective utama dari RapidMiner yang digunakan sebagai area kerja untuk membuat
dan mengelola proses analisis.
Operator dan Proses
• Proses data mining pada dasarnya adalah proses analisa
yang berisi alur kerja dari komponen data mining
• Komponen dari proses ini disebut operator, yang
didefinisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan 22
Implementasi DM dengan RapidMiner
• Penggunaan RapidMiner for Linear regression
• Penggunaan RapidMiner for Text Mining
• Penerapan Big Data for CAD

23
Business Intelligence Tools For Big Data
• Analytics dengan Hadoop dilakukan dengan:
• Menulis code using Java, Python, R ..dll
• Menggunakan high level Pig scripts
• Menguunakan SQL dengan Hive
• Melakukan analisis menggunakan tools tsb tidaklah
mudah. Business Intelligence tools (BI tools) dapat
mengatasi masalah ini.
24
Business Intelligence
• BI merupakan sistem dan aplikasi yang berfungsi untuk
mengubah data-data dalam suatu perusahaan atau organisasi
(data operasional, data transaksional, atau data lainnya) ke
dalam bentuk pengetahuan.

• Aplikasi ini melakukan analisis data-data di masa lampau,


menganalisisnya dan kemudian menggunakan pengetahuan
tersebut untuk mendukung keputusan.

25
Metodologi Pembangunan BI
Untuk bisa mendapatkan manfaat BI, dibutuhkan tahapan proses sebagai dasar
untuk implementasi business intelligence, yaitu:
• Business understanding (pemahaman kebutuhan pengguna), Mendefinisikan informasi
apa saja yang dibutuhkan, data-data apa saja yang perlu dianalisis, dan dimana sajakah
data-data tersebut dikelola. Siapa sajakah yang terkait dengan kebutuhan analisis
tersebut dan bagaimana bentuk informasi yang diharapkan
• Data understanding (pemahaman kondisi data yang dimiliki), BI tidak akan dapat
digunakan dengan baik jika data yang akan dianalisis merupakan data yang tidak/kurang
baik kualitasnya. Data yang tidak/kurang baik akan menghasilkan informasi yang kurang
baik dalam pengambilan keputusan (garbage in = garbage out )
• Data preparation (melakukan penyesuaian data untuk memenuhi kebutuhan).
• Modeling assessment (memilih model yang akan digunakan).
• Review and evaluation (upaya meningkatkan value atas sistem) 26
BI Tools

27
Big Data Analytics dengan QlikView
• QlikView memainkan peran penting dalam implementasi Big Data,
menyediakan kecepatan maupun analisis yang fleksibel bagi pengguna serta
kemampuan untuk mengintegrasikan data dari berbagai sumber (misalnya,
dari sumber Big Data, data warehouse, database departemen, dan
spreadsheet), dan melakukan analisis secara interaktif.

28
Membangun App dengan QV
• QlikView document terdiri dari dua elemen utama,:
• dataset yang akan dianalisa oleh user: Yang merupakan backend
dari QlikView document dan berisi seluruh source tables yang
diperlukan untuk membangun data model.
• user interface di mana pengguna bisa menganalisis data:
Merupakan frontend aplikasi analitik dan berisi objek-objek yang
dikandung dalam dokumen (seperti listbox untuk membuat pilihan
dan filter data), atau grafik dan tables yang digunakan untuk
menampilkan informasi.
29
Contoh Tampilan
Terimakasih

Anda mungkin juga menyukai