3
Apa yang besar?
Sumber: http://vijjam.blogspot.com
3V – 4V – 5V
Volume: Ukuran data sangat besar dari sisi jumlah yang mencapai Milyaran
Terra Byte = trilyunan GB.
Velocity: Kecepatan data sangat besar dari sisi kemunculan dan perubahan.
Variety: Variasi jenis/tipe data sangat banyak, unstructured dan multi-
structured.
Value: Nilai yang dihasilkan juga sangat besar, dari sisi manfaat dalam
bentuk uang maupun non uang.
Veracity: Kebenaran dan keakuratan informasi yang tidak mudah
dipastikan, misal salah ketik di Twitter. 5
Big Volume
•Volume bertambah secara eksponensial. Pada 2015: 8 Zetta Bytes = 8.000
Peta Bytes = 8 juta Exa Bytes = 8 milyar Terra Bytes = 8 trilyun Giga Bytes. *)
*) Sumber: wipro.com
Big Velocity
Pertambahan (2011):
- Twitter 7 TB/hari
- Facebook 10 TB/hari
Sumber:
bigdatauniversity.com
7
Big Variety
8
Hadoop dan Big Data
• Open-Source Framework untuk memproses himpunan-data berskala
besar (big data) dalam beberapa cluster hardware komputer
• Dikembangkan menggunakan bahasa Java, beberapa menggunakan
C dan utilitas command line sebagai shell-scripts
• Dikembangkan oleh Apache Software foundation ( apache.org )
2007 dibawah lisensi v2 Apache
9
Job Type for Big Data
Job Type Job functions Skill
Data Scientist Data mining and figuring out Math, data mining algorithms
hidden knowledge in data
DSS
Aksi
SOP
Kebijakan
12
Data Mining
Task-relevant Data
Data Selection
Warehouse
Pembersihan Data
Data Integration 15
3. Rule (Aturan)
3. IF ips3=2.8 THEN lulustepatwaktu
4. Cluster (Klaster)
17
Top Data Mining Software Used
18
http://www.kdnuggets.com/polls/2015/analytics-data-mining-data-science-software-used.html
RapidMiner
• RapidMiner saat ini sudah digunakan dalam berbagai industri termasuk otomotif,
perbankan, asuransi, Ilmu kehidupan, manufaktur, minyak dan gas, retail,
telekomunikasi dan utilitas.
• RapidMiner v6.0 tetap open source. RapidMiner versi terbaru sekarang hanya tersedia
sebagai versi trial atau di bawah lisensi komersial.
• RapidMiner Studio : Sebuah perangkat lunak yang berdiri sendiri yang dapat digunakan untuk
persiapan data, visualisasi dan pemodelan statistik
• RapidMiner Server : Ini adalah sebuah enterprise-grade dengan repositori sentral yang dapat
meningkatkan bekerja secara team jauh lebih mudah, manajemen proyek dan deployment.
• RapidMiner Radoop : Mengimplementasikan kemampuan analisis Big Data yang berpusat
pada Hadoop.
• RapidMiner Cloud : Sebuah repositori berbasis cloud yang memungkinkan dan memudahkan
berbagi informasi di antara dan berbagai perangkat. 19
Pengenalan Interface
• RapidMiner menyediakan tampilan yang user friendly untuk
memudahkan penggunanya ketika menjalankan aplikasi.
Tampilan pada RapidMiner dikenal dengan istilah Perspective.
Pada RapidMiner terdapat 3 Perspective, yaitu; Welcome
Perspective, Design Perspective dan Result Perspective.
Design Perspective
• Design Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective ini
merupakan perspective utama dari RapidMiner yang digunakan sebagai area kerja untuk membuat
dan mengelola proses analisis.
Operator dan Proses
• Proses data mining pada dasarnya adalah proses analisa
yang berisi alur kerja dari komponen data mining
• Komponen dari proses ini disebut operator, yang
didefinisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan 22
Implementasi DM dengan RapidMiner
• Penggunaan RapidMiner for Linear regression
• Penggunaan RapidMiner for Text Mining
• Penerapan Big Data for CAD
23
Business Intelligence Tools For Big Data
• Analytics dengan Hadoop dilakukan dengan:
• Menulis code using Java, Python, R ..dll
• Menggunakan high level Pig scripts
• Menguunakan SQL dengan Hive
• Melakukan analisis menggunakan tools tsb tidaklah
mudah. Business Intelligence tools (BI tools) dapat
mengatasi masalah ini.
24
Business Intelligence
• BI merupakan sistem dan aplikasi yang berfungsi untuk
mengubah data-data dalam suatu perusahaan atau organisasi
(data operasional, data transaksional, atau data lainnya) ke
dalam bentuk pengetahuan.
25
Metodologi Pembangunan BI
Untuk bisa mendapatkan manfaat BI, dibutuhkan tahapan proses sebagai dasar
untuk implementasi business intelligence, yaitu:
• Business understanding (pemahaman kebutuhan pengguna), Mendefinisikan informasi
apa saja yang dibutuhkan, data-data apa saja yang perlu dianalisis, dan dimana sajakah
data-data tersebut dikelola. Siapa sajakah yang terkait dengan kebutuhan analisis
tersebut dan bagaimana bentuk informasi yang diharapkan
• Data understanding (pemahaman kondisi data yang dimiliki), BI tidak akan dapat
digunakan dengan baik jika data yang akan dianalisis merupakan data yang tidak/kurang
baik kualitasnya. Data yang tidak/kurang baik akan menghasilkan informasi yang kurang
baik dalam pengambilan keputusan (garbage in = garbage out )
• Data preparation (melakukan penyesuaian data untuk memenuhi kebutuhan).
• Modeling assessment (memilih model yang akan digunakan).
• Review and evaluation (upaya meningkatkan value atas sistem) 26
BI Tools
27
Big Data Analytics dengan QlikView
• QlikView memainkan peran penting dalam implementasi Big Data,
menyediakan kecepatan maupun analisis yang fleksibel bagi pengguna serta
kemampuan untuk mengintegrasikan data dari berbagai sumber (misalnya,
dari sumber Big Data, data warehouse, database departemen, dan
spreadsheet), dan melakukan analisis secara interaktif.
28
Membangun App dengan QV
• QlikView document terdiri dari dua elemen utama,:
• dataset yang akan dianalisa oleh user: Yang merupakan backend
dari QlikView document dan berisi seluruh source tables yang
diperlukan untuk membangun data model.
• user interface di mana pengguna bisa menganalisis data:
Merupakan frontend aplikasi analitik dan berisi objek-objek yang
dikandung dalam dokumen (seperti listbox untuk membuat pilihan
dan filter data), atau grafik dan tables yang digunakan untuk
menampilkan informasi.
29
Contoh Tampilan
Terimakasih