Anda di halaman 1dari 44

Big Data Analytic

Kontrak kuliah
Tugas 40%
UTS 30%
UAS 30%
Big Data Overview
• Beberapa industri telah mengembangkan kemampuan mereka untuk
mengumpulkan dan mengeksploitasi data, misal :
Perusahaan kartu kredit memantau setiap pembelian pelanggan dan
dapat mengidentifikasi pembelian palsu dengan tingkat akurasi yang
tinggi menggunakan aturan yang dibuat dari hasil pemrosesan
milyaran data transaksi
Perusahaan telepon seluler menganalisis pola panggilan pelanggan
untuk menentukan misalnya, apakah kontak yang sering dihubungi
pemanggil merupakan operator pesaing atau bukan.
Untuk perusahaan seperti LinkedIn dan Facebook, data itu sendiri
adalah produk utama mereka.
• Tiga atribut yang mendefinisikan karakteristik Big Data :
• Huge volume of data : Big Data bisa saja terdiri dari miliaran baris dan
jutaan kolom.
• Complexity of data types and structures : Big Data mencerminkan
keragaman sumber data baru, format, dan struktur, termasuk jejak
digital yang ditinggalkan di web dan repositori digital lainnya untuk
analisis selanjutnya.
• Speed of new data creation and growth : Big Data dapat
menggambarkan data kecepatan tinggi, dengan konsumsi data yang
cepat dan analisis real time.
Memungkinkan pembuatan,
manipulasi, dan pengelolaan
kumpulan data besar dan lingkungan
penyimpanan yang menampungnya

Karena ukuran atau strukturnya, Big Masalah Big Data membutuhkan


Data tidak dapat dianalisis secara alat dan teknologi baru untuk
efisien hanya dengan menggunakan menyimpan, mengelola, dan
basis data atau metode tradisional. mewujudkan manfaat bisnis.
What’s Driving the Data Deluge
Contoh :
• Misalnya, pada 2012 pengguna Facebook memposting 700
pembaruan status per detik di seluruh dunia, yang dapat
dimanfaatkan untuk mengetahui minat atau pandangan politik
pengguna dan menunjukkan iklan yang relevan. Misalnya, pembaruan
di mana seorang wanita mengubah status hubungannya dari "lajang"
ke "bertunangan" akan memicu iklan pada gaun pengantin,
perencanaan pernikahan, atau layanan ganti nama.
• Online Shop??
• Instagram??
Data Structures
• Big Data datang dalam berbagai bentuk, termasuk data terstruktur
dan non-terstruktur seperti data keuangan, file teks, file multimedia,
dan pemetaan genetik.
• Sementara sebagian besar analisis data tradisional dilakukan oleh
organisasi, sebagian besar Big Data tidak terstruktur atau semi-
terstruktur, yang membutuhkan berbagai teknik dan tool untuk
memproses dan menganalisa
Four Types of Data Structures

80-90% pertumbuhan data


di masa mendatang
dari tipe data non-
terstruktur. Meskipun
berbeda, keempatnya
umumnya dicampur.
Four Types of Data Structures
• Structured Data : data yang berisi tipe data, format, dan struktur yang
ditentukan. Misal : Data transaksi, Online Analytical Processing
(OLAP), traditional DBMS, file .csv dan bahkan spreadsheet
sederhana.
Four Types of Data Structures
• Semi-structured data : data tekstual dengan pola yang dapat dilihat
yang memungkinkan diparsing. Misalnya : Extensible Markup
Language (XML)
Four Types of Data Structures
• Quasi-structured data : data tekstual dengan format data tidak
menentu yang dapat diformat dengan menggunakan tools dan
membutuhkan waktu. Misalnya : data web clickstream yang mungkin
berisi ketidakkonsistenan nilai dan format data
Four Types of Data Structures
• Unstructured data : data yang tidak memiliki struktur bawaan, dapat
berupa teks, dokumen, PDF, images, video
Analyst Perspective on Data Repositories
Analyst Perspective on Data Repositories
• Seiring dengan meningkatnya pertumbuhan data, solusi penyimpanan
data yang lebih scalable juga bertambah.
• Teknologi ini memungkinkan data dikelola secara terpusat,
memberikan manfaat keamanan, failover, dan single repositori
dimana pengguna dapat mengandalkan sumber data “official" untuk
pelaporan keuangan atau tugas penting lainnya.
• Struktur ini juga memungkinkan pembuatan OLAP dan Bussiness
Intelligence Analytical tools, yang menyediakan akses cepat ke
serangkaian dimensi melalui sebuah RDBMS. Fitur yang lebih canggih
memungkinkan Teknik analisis mendalam seperti regresi dan jaringan
saraf.  Enterprise Data Warehouses (EDW)
Analyst Perspective on Data Repositories
• Kelemahan EDW dan BI : cenderung membatasi fleksibilitas yang
diperlukan untuk melakukan analisis data atau eksplorasi. Data dikelola dan
dikontrol oleh orang IT dan administrator basis data (DBA), dan data
analyst harus bergantung pada IT untuk akses dan melakukan perubahan
skema data.

Dampaknya
Longer lead times for Data baru akan dikelola
analysts to get data sendiri
Analyst Perspective on Data Repositories
• Dari perspektif analis, EDW dan BI memecahkan masalah yang terkait
dengan akurasi dan ketersediaan data. Namun, EDW dan
BI menimbulkan masalah baru terkait dengan fleksibilitas.
Analyst Perspective on Data Repositories

Analytic Sandbox

Disebut sebagai workspace,


memungkinkan tim untuk
mengeksplorasi banyak kumpulan
data dengan cara yang terkontrol
Types of Data Repositories, from an Analyst
Perspective
State of The Practice in Analytics
• Masalah bisnis saat ini memberikan banyak peluang bagi organisasi untuk
dapat menganalisis banyak hal (data).

• Empat pendorong bisnis membutuhkan berbagai teknik analisis untuk


mengatasi masalah tersebut.
Business Intelligence vs. Data Science
• Apa itu Business Intelligence ??
Teknik dan tools untuk mengumpulkan dan menyimpan data dalam
datawarehouse dan mentransformasi data tersebut menjadi sebuah
informasi yang bermanfaat untuk proses analisis bisnis
Menghasilkan informasi yang akurat jika sumber datanya baik.
• Data Science ??
Current Analytical Architectures
1. Untuk sumber data yang akan dimuat ke dalam data warehouse, data harus
baik dipahami, terstruktur, dan dinormalisasi dengan definisi tipe data yang
sesuai. Meskipun sentralisasi semacam ini memungkinkan keamanan,
cadangan, dan kegagalan yang tinggi data kritis, itu juga berarti bahwa data
biasanya harus melalui signifikan preprocessing dan pos pemeriksaan sebelum
dapat memasuki lingkungan yang terkendali ini
2. Sebagai hasil dari level kontrol pada EDW ini, sistem lokal tambahan mungkin
muncul dalam bentuk departmental warehouses dan lokal data marts yang
pengguna bisnis buat untuk mengakomodasi kebutuhan mereka akan analisis
yang fleksibel. Data mart lokal ini mungkin tidak memiliki kendala yang sama
untuk keamanan dan struktur seperti EDW utama dan memungkinkan
pengguna untuk melakukan beberapa tingkat analisis yang lebih mendalam.
Namun, sistem satu kali ini berada dalam isolasi, sering tidak disinkronkan atau
diintegrasikan dengan penyimpanan data lainnya, dan mungkin tidak didukung.
3. Setelah di data warehouse, data dibaca oleh aplikasi tambahan di Internet
perusahaan untuk tujuan BI dan pelaporan. Ini adalah proses operasional
prioritas tinggi mendapatkan umpan data (feed back) penting dari data
warehouse dan repositori.
• Karena adanya validasi dan proses penataan data, maka proses
penyimpanan data baru ke EDW menjadi lambat.
Drivers of Big Data
Emerging Big Data Ecosystem and a New
Approach to Analytics
• Dengan adanya banjir data, organisasi (market player) dan data
collector menyadari bahwa mereka dapat mengumpulkan data
individu dari manapun. This is my
• A new economy is emerging. opportunity
Emerging Big Data Ecosystems
Contoh
- Consider someone playing an online video game through a PC, game console, or smartphone.
- The video game provider captures data about the skill and levels attained by the player. Intelligent
systems monitor and log how and when the user plays the game.
- The game provider can fine-tune the difficulty of the game, suggest other related games that would
most likely interest the user, and offer additional equipment and enhancements for the character based
on the user’s age, gender, and interests.

In addition to messaging and basic phone usage, they store and transmit data about Internet usage, SMS
usage, and real-time location. This metadata can be used for analyzing traffic patterns by scanning the
density of smartphones in locations to track the speed of cars or the relative traffic congestion on busy
roads.

Retail shopping loyalty cards record not just the amount an individual spends, but the locations of stores
that person visits, the kinds of products purchased, the stores where goods are purchased most often, and
the combinations of products purchased together.  iklan tertentu
Emerging Big Data Ecosystems
• Jenis data dan dinamika pasar yang terkait sangat bervariasi
• Kumpulan data ini dapat mencakup data sensor, teks, terstruktur
dataset, dan media sosial.

Tidak sesuai dengan traditional EDW yang


Big Data membutuhkan
merampingkan pelaporan dan dikelola
Pendekatan yang berbeda
secara terpusat
Key Rolls for the New Big Data Ecosystem
• Seperti yang sudah dijelaskan sebelumnya, market player muncul
untuk mengumpulkan, menyimpan, memproduksi, membersihkan
dan bertransaksi data.
• Selain itu, kebutuhan untuk menerapkan teknik analisis yang lebih
maju untuk masalah bisnis yang semakin kompleks telah mendorong
munculnya peran baru, platform teknologi baru dan metode analitik
baru
Key Rolls of the New Big Data Ecosystem
• Deep Analytical Talent : cerdas secara teknis, dengan kemampuan analisis
yang kuat. Memiliki kombinasi keterampilan untuk menangani data mentah
dan tidak terstruktur dan menerapkan teknik analitik yang rumit pada skala
besar. Mampu dalam mathematics, statistics dan machine learning.
• Dalam pekerjaan, mereka membtuhkan akses ke Analytic Sandbox atau ruang
kerja dimana mereka bisa melakukan eksperimn data analitik skala besar.
• Contoh : ahli statistik, ekonom, ahli matematika, dan Data Scientist (the new
role)
• Amerika Serikat, diprediksi pada tahun 2018, memiliki 140.000 – 190.000
orang dengan kemampuan ini. Perkiraan ini hanya mencerminkan kekurangan
tenaga terampil yang diperkirakan di Amerika Serikat; jumlahnya akan jauh
lebih besar secara global.
Key Rolls of the New Big Data Ecosystem
• Data Savvy Professionals : memiliki kedalaman Teknik yang kurang tetapi
memiliki dasar pengetahuan tentang statistic atau Machine Learning dan dapat
menentukan pertanyaan kunci yang bisa dijawab menggunakan analitik lanjutan.
• Orang – orang ini cenderung memiliki pengetahuan dasar tentang bekerja
dengan data.
• Contoh : analis keuangan, market research analysts, life scientists, manajer
operasional, business and functional managers.
• Perkiraan di Amerika Serikat pada tahun 2018, orang-orang ini berjumlah sekitar
1,5 juta.
• Bergerak menuju menjadi profesional yang mengerti data adalah langkah
penting dalam memperluas perspektif manajer, direktur, dan pemimpin, karena
ini memberikan gambaran tentang jenis pertanyaan yang dapat diselesaikan
dengan data.
Key Rolls of the New Big Data Ecosystem
• Technology and Data Enablers : orang yang menyediakan keahlian
teknis untuk mendukung proyek analitis, seperti penyediaan dan
administrasi Analytical Sandbox, dan mengelola arsitektur data skala
besar yang memungkinkan analisis yang luas dalam perusahaan
maupun diluar organisasi
• Peran ini membutuhkan keterampilan yang berkaitan dengan Teknik
komputer, pemrograman, dan administrasi basis data.
Key Rolls of the New Big Data Ecosystem
Ketiga kelompok ini harus bekerja Sebagian besar organisasi akrab dengan
bersama secara erat untuk orang-orang dalam dua kelompok yang
menyelesaikan tantangan Big Data yang disebutkan terakhir, tetapi Kelompok
kompleks. pertama, Deep Analytical Talent,
cenderung menjadi peran terbaru bagi
sebagian besar dan paling sedikit
dimengerti.
Data Scientists
Umumnya memiliki perpaduan keterampilan untuk memperoleh, mengelola,
menganalisis, dan memvisualisasikan data serta menceritakan kisah menarik
tentangnya.
Data Scientists
• Reframe business challenges sebagai tantangan analitik. Secara
khusus, ini adalah keterampilan untuk mendiagnosis masalah bisnis,
mempertimbangkan inti dari masalah yang diberikan, dan menentukan
jenis metode analisis yang dapat diterapkan untuk menyelesaikannya.
• Design, implement, and deploy statistical models and data mining
techniques on Big Data. Serangkaian kegiatan ini berfokus pada apa
yang dipikirkan orang ketika mereka mempertimbangkan peran Data
Scientist: yaitu, menerapkan metode analisis yang kompleks untuk
berbagai masalah bisnis menggunakan data.
• Develop insights that lead to actionable recommendations.
Data Scientists
• Quantitative skill: such as mathematics or statistics
• Technical aptitude: namely, software engineering, machine learning, and
programming skills
• Skeptical mind-set and critical thinking: It is important that data
scientists can examine their work critically rather than in a one-sided way.
• Curious and creative: Data scientists are passionate about data and
finding creative ways to solve problems and portray information.
• Communicative and collaborative: Data scientists must be able to
articulate the business value in a clear way and collaboratively work with
other groups,including project sponsors and key stakeholders.

Anda mungkin juga menyukai