Anda di halaman 1dari 49

ANALISA BIG DATA

PENGERTIAN BIG DATA

9/21/2019 SYK 1
PENGERTIAN BIG DATA
• Big data adalah istilah yang menggambarkan volume besar
data – baik terstruktur maupun tidak terstruktur – yang
membanjiri bisnis sehari-hari.
• Namun bukan jumlah data yang penting.
• Apa yang dilakukan organisasi dengan data itulah yang
penting.
• Big data dapat dianalisis demi pemahaman yang mengarah
kepada keputusan dan gerakan bisnis strategis yang lebih
baik.
9/21/2019 SYK 2
SEJARAH BIG DATA
• Sementara istilah “big data” relatif baru, tindakan
mengumpulkan dan menyimpan informasi dalam jumlah besar
untuk analisis akhirnya sudah ada sejak lama.
• Konsep ini memperoleh momentum di awal tahun 2000an ketika
analis industri Doug Laney mengartikulasikan definisi big data
yang saat ini menjadi mainstream sebagai tiga V:
• Volume
• Velocity (Kecepatan)
• Variety (Keberagaman)

9/21/2019 SYK 3
Big data with 3 V’s
• Volume. Organisasi mengumpulkan data dari berbagai sumber, termasuk
transaksi bisnis, media sosial, dan informasi dari data sensor atau mesin-ke
mesin. Di masa lampau, menyimpannya akan menjadi masalah – namun
teknologi baru (seperti Hadoop) mampu meringankan beban ini.
• Variety (Keberagaman) Data hadir dalam semua jenis format – dari data
terstruktur dan numerik dalam database tradisional hingga dokumen teks
tidak terstruktur, email, video, audio, data stock ticker, dan transaksi
keuangan.
• Velocity (Kecepatan) Data mengalir dalam kecepatan yang belum pernah
terjadi sebelumnya dan harus ditangani secara tepat waktu. Tag RFID,
sensor, dan pengukuran pintar mendorong kebutuhan untuk menghadapi
derasnya curahan data secara hampir real-time.

9/21/2019 SYK 4
Big Data with 6 V’s

9/21/2019 SYK 5
Big data with 8
V’s

9/21/2019 SYK 6
Mengapa Big Data Penting?
• Pentingnya big data tidak berkisar pada seberapa banyak data
yang Anda miliki, tetapi apa yang Anda lakukan dengan data
tersebut.
• Anda dapat mengambil data dari sumber apa pun dan
menganalisisnya untuk menemukan jawaban yang
memungkinkan:
(1) pengurangan biaya,
(2) pengurangan waktu,
(3) pengembangan produk baru, dan penawaran yang
dioptimalkan,
(4) pengambilan keputusan yang cerdas.

9/21/2019 SYK 7
Manfaat big data
Saat Anda menggabungkan big data dengan analitik berkekuatan
tinggi, Anda dapat menyelesaikan tugas-tugas yang terkait dengan
bisnis seperti:
1. Menentukan akar penyebab kegagalan, masalah, dan kegagalan
hampir secara real time.
2. Menghasilkan kupon di titik penjualan berdasarkan kebiasaan
membeli pelanggan.
3. Menghitung ulang seluruh portofolio risiko dalam hitungan menit.
4. Mendeteksi perilaku curang sebelum hal ini memengaruhi
organisasi Anda.

9/21/2019 SYK 8
Analitik
• Apa itu analitik?
• Analitik adalah bidang yang mencakup dan multidimensi
yang menggunakan matematika, statistik, pemodelan
prediktif, dan teknik pembelajaran mesin guna
menemukan pola serta pengetahuan bermakna dalam data
yang terekam.

9/21/2019 SYK 9
• Saat
ini, banyak perusahaan menambahkan komputer yang
canggih untuk menyimpan data dalam jumlah yang semakin
meningkat dan menjalankan algoritme perangkat lunak
canggih – yang menghasilkan wawasan cepat yang diperlukan
untuk mengambil keputusan berdasarkan fakta.
• Dengan memanfaatkan penggunaan ilmu angka, data, dan
penemuan analitis, kita dapat mengetahui apakah apa yang
kita pikirkan atau yakini benar. Dan menghasilkan jawaban
bagi pertanyaan yang tak pernah terpikir untuk kita ajukan.
• Itulah kekuatan analitik.

9/21/2019 SYK 10
Mengapa analitik penting?
1. Dari proyek pengumpulan data populasi pertama yang diketahui oleh
pemerintah Swedia pada tahun 1749, ingin mengetahui distribusi geografis
penduduk mereka untuk mempelajari cara terbaik guna mempertahankan
kekuatan militer yang tepat.
2. Florence Nightingale yang merekam dan menganalisis data kematian pada
tahun 1850-an, ingin mengetahui peran dari kebersihan dan perawatan dalam
tingkat kematian.
3. Penelitian tembakau dan kanker paru-paru ilmuwan Inggris Richard Doll
pada tahun 1950-an, ingin mengetahui apakah orang yang merokok lebih
mungkin menderita kanker paru-paru.
Masing-masing skenario di atas memerlukan jawaban untuk pertanyaan yang
sampai sekarang tidak dapat dijawab.
9/21/2019 SYK 11
• Masing-masing pionir ini tahu bahwa naluri saja tidak cukup.
Analisis data dapat mengungkap korelasi dan pola. Perlunya
mengandalkan prediksi atau intuisi menjadi berkurang. Dan
analisis ini dapat membantu menjawab jenis pertanyaan berikut:

1. Apa yang terjadi?


2. Bagaimana atau mengapa hal itu terjadi?
3. Apa yang sedang terjadi sekarang?
4. Apa yang mungkin terjadi berikutnya?

9/21/2019 SYK 12
• Dengan komputer yang lebih cepat dan lebih kuat,
peluang penggunaan analitik dan big data menjadi
berlimpah. Baik itu menentukan risiko kredit,
mengembangkan obat baru, menemukan cara yang lebih
efisien untuk menghasilkan produk dan layanan,
mencegah penipuan, mengungkap ancaman siber atau
mempertahankan pelanggan yang paling berharga,
analitik dapat membantu Anda memahami organisasi
Anda – dan dunia di sekitarnya.

9/21/2019 SYK 13
Metode analitik

Ada tiga jenis analitik yang penggunaannya mendominasi


saat ini.
1. Statistik deskriptif
2. Analitik prediktif
3. Analitic preskriptif

9/21/2019 SYK 14
Statistik deskriptif
Statistik deskriptif telah ada sejak lama.
Ingat orang-orang Swedia pada tahun 1749? Menghitung
jumlah populasi merupakan upaya awal dalam analisis
deskriptif – rangkuman titik data yang dikumpulkan. Ini adalah
model yang akan membantu Anda memahami apa yang terjadi
dan alasannya.
Masih banyak analitik deskriptif yang digunakan saat ini –
semuanya mulai dari berapa banyak klik yang diterima halaman
hingga berapa banyak unit yang diproduksi terhadap berapa
banyak yang terjual.

9/21/2019 SYK 15
Analitik prediktif
• Analitik prediktif telah meningkat popularitasnya. Keinginan
untuk memprediksi perilaku pelanggan telah menjadi pendorong
utama. Peningkatan daya komputasi dengan kemampuan
menjalankan ratusan atau ribuan model dengan cepat – dan adopsi
teknik prediktif yang meluas seperti dukungan mesin
vektor, jaringan neural dan random forests – membawa analisis
prediktif ke garis depan pada banyak organisasi.
• Model-model ini menggunakan data lampau dan algoritme
prediktif guna membantu Anda menentukan probabilitas apa yang
akan terjadi berikutnya.

9/21/2019 SYK 16
Analitik preskriptif
• Analitik preskriptif adalah hal yang masih baru.
• Mengetahui apa yang akan terjadi dan mengetahui apa yang
harus dilakukan adalah dua hal yang berbeda.
• Analitik preskriptif menjawab pertanyaan tentang apa yang
harus dilakukan dengan memberikan informasi tentang
keputusan optimal berdasarkan skenario masa depan yang
diprediksi.
• Kunci untuk analitik preskriptif adalah mampu menggunakan
big data, data kontekstual, dan banyak daya komputasi untuk
menghasilkan jawaban secara real time.
9/21/2019 SYK 17
Cara mendapatkan hal yang paling bernilai
dari analitik
Analitik merupakan istilah yang digunakan secara luas.
Bagaimana Anda mengetahui analitik mana yang tepat
untuk organisasi Anda?
Sama seperti kebanyakan perjalanan, tujuan analitik adalah
tempat yang baik untuk memulai. Bahkan jika ini adalah
hal yang paling mendasar. Anda harus mengetahui ke
mana Anda ingin pergi dan apa yang Anda ingin lihat. Dan
mengumpulkan apa yang diperlukan untuk sampai ke sana.

9/21/2019 SYK 18
Dalam perjalanan analitik saat ini, Anda memiliki data.
Anda memiliki komputer.
Apa yang Anda lakukan berikutnya?
1. Langkah pertama adalah mencari tahu masalah apa
yang Anda sedang coba selesaikan atau jawaban yang
sedang Anda cari.
2. Bagian organisasi mana yang perlu Anda tingkatkan?
3. Keputusan apa yang harus diambil?
4. Apa tujuan perjalanan analitik Anda?

9/21/2019 SYK 19
Lebih khusus lagi, Anda mungkin ingin menjawab
pertanyaan-pertanyaan seperti ini:
1. Berapa besar biaya yang harus kita kenakan untuk item tertentu?
2. Di mana kita harus mencari pabrik manufaktur baru?
3. Siapa yang memperoleh katalog atau brosur terbaru?
4. Berapa tingkat suku bunga yang harus diterima masing-masing
pelanggan?
5. Mengapa kita kehilangan pelanggan di wilayah tertentu?

Dengan data yang benar dan model analitik yang tepat, Anda akan
dapat menjawab berbagai pertanyaan tersebut dan lebih banyak lagi.
Peluang untuk menghasilkan pengetahuan dan wawasan tidak pernah
sebesar ini.

9/21/2019 SYK 20
Siklus hidup analitik
• Identifikasi masalah
• Siapkan data untuk analisis
• Eksplorasi data
• Transformasikan data dan buat model
• Uji dan validasi model.
• Gunakan model.
• Pantau dan nilai model.

9/21/2019 SYK 21
Identifikasi masalah
Anda menentukan kebutuhan, ruang lingkup, kondisi
pasar, dan sasaran yang terkait dengan pertanyaan bisnis
yang ingin mereka pecahkan, yang akan mengarah pada
pemilihan satu teknik pemodelan atau lebih.

9/21/2019 SYK 22
Siapkan data untuk analisis
Bergantung pada pertanyaan bisnis dan metode analisis
yang diusulkan, langkah ini melibatkan penggunaan teknik
khusus guna menemukan, mengakses, membersihkan, dan
menyiapkan data untuk hasil yang optimal.
Dalam dunia data multifaset , hal ini bisa berarti data dari
sistem transaksional, file teks tidak terstruktur, dan gudang
data.

9/21/2019 SYK 23
Eksplorasi data
Kini saatnya untuk mengeksplorasi data dengan cara
interaktif dan visual guna mengidentifikasi dengan cepat
berbagai variabel, tren, dan hubungan yang relevan.
(Bentuk data ketika variabel diplot disebut distribusi data.
Anda dapat menggunakan beberapa bentuk untuk
mengidentifikasi pola.)

9/21/2019 SYK 24
Transformasikan data dan buat model
Seorang analis atau pemodel terampil membangun model
menggunakan perangkat lunak statistik, penambangan
data atau penambangan teks, termasuk kemampuan kritis
dalam mentransformasikan dan memilih berbagai variabel
penting.
Model harus dibuat dengan cepat sehingga pemodel dapat
menggunakan ralat dan galat guna menemukan metode
yang membuahkan hasil terbaik.
9/21/2019 SYK 25
Uji dan validasi model
Setelah dibuat, model didaftarkan, diuji (atau divalidasi),
disetujui, dan dinyatakan siap untuk digunakan terhadap
data Anda. Dengan repositori model terpusat, Anda dapat
menyimpan dokumentasi ekstensif tentang model, kode
penilaian, dan metadata terkait (data tentang data) untuk
pembagian kolaboratif dan kontrol versi yang diperlukan
demi keperluan audit.

9/21/2019 SYK 26
Gunakan model
Jika disetujui untuk digunakan, model diaplikasikan pada
data baru guna menghasilkan wawasan prediktif.

9/21/2019 SYK 27
Pantau dan nilai model
Kinerja model prediktif dipantau untuk memastikan hasil
yang terkini dan valid.
Jika kinerja model menurun, saatnya untuk membuat
perubahan.
Jika model ini tidak lagi berfungsi atau melayani
kebutuhan bisnis, saatnya model ini dihentikan.

9/21/2019 SYK 28
The five D's of data preparation
1. Discover
2. Detain
3. Distill
4. Document
5. Deliver

9/21/2019 SYK 29
Discover
Discover is about finding the data best-suited for a specific
purpose.
Many users cite this as a frustrating and time-consuming exercise.
An essential enabler of efficient discovery is the creation and
maintenance of a comprehensive, well-documented data catalog
(i.e., metadata repository).
In addition to data profiling statistics and other contents, the data
catalog provides a descriptive index pointing to the location of
available data.
9/21/2019 SYK 30
• Data profiling is key to unlocking a better understanding of this
data, because it provides high-level statistics about the data’s
quality (such as row counts, column data types, min, max and
median column values, and null counts). That makes it easier to
choose when multiple applicable data sets are discovered.
• It’s important to note that discovery should not be just about
finding the data that’s needed right now. It should also make it
easier to find data later, when similar needs arise. As the
enterprise encounters new data sources, especially those external
to the organization, the data catalog should be updated. That’s
true even if no further data preparation steps are done
immediately.

9/21/2019 SYK 31
Detain
Detain is about collecting the data selected during
discovery.
The term “detain” conjures the image of temporarily
imprisoning a copy of the data that feeds the rest of the
preparation process.
For too many organizations, the cells of a spreadsheet
permanently detain data both during and after preparation.

9/21/2019 SYK 32
Detain (cont…..)
A temporary staging area or workspace is required for the
processing that happens in the “distill” step of data preparation.
When persistent detention of intermediate or delivered data is
required, it should make use of shared and managed storage – a
relational database, network file system or big data repository
such as a Hadoop-enabled data lake.
An emerging technique here involves the use of in-memory
storage areas (or alternatively the cloud) for much faster
real-time blending and shaping of the data before it’s sent on to
other processes.

9/21/2019 SYK 33
Distill
Distill is about refining the data collected during the detain
phase of data preparation.
In the process of refining data, you must determine how fit the
data is for its intended purpose, or use. This is an overlapping
function of data quality – making data quality integral to data
preparation.
The extent to which data quality functions such as validation,
deduplication and enrichment can be performed is often
determined by the ability to reuse components from other
implementations.

9/21/2019 SYK 34
Document
Document is about recording both business and technical metadata about
discovered, detained and distilled data.
This includes:
1. Technical definitions.
2. Business terminology.
3. Source data lineage.
4. History of changes applied during distillation.
5. Relationships to other data.
6. Data usage recommendations.
7. Associated data governance policies.
8. Identified data stewards.

9/21/2019 SYK 35
All of this metadata is shared via the data catalog.
Manual data preparation, often by spreadsheet wranglers, is not
only time-consuming but often redundant.
That’s because different users (or even the same user) may perform
the same work – and they don’t necessarily generate the same
results each time.
Shared metadata enables data preparation to be completed faster,
and consistently repeated.
Shared metadata also enables efficient collaboration when multiple
users are involved in different aspects of data preparation.

9/21/2019 SYK 36
Deliver
• Deliver is about structuring distilled data into the format needed by the
consuming process or user. The delivered data set(s) should also be evaluated
for persistent detention and, if detained, the supporting metadata should be
added to the data catalog. These steps allow the data to be discovered by
other users.
• Delivery must also abide by data governance policies, such as those
minimizing the exposure of sensitive information. It’s important to note this
may not be a one-time delivery. Iterative delivery of new or changed data
may require the data preparation to be run as a scheduled or on-demand
process. In addition, use of delivered data should be monitored – and unused
data should be deleted – after a set period of time (and the corresponding
entries in the data catalog should be removed).
9/21/2019 SYK 37
Siapa yang menggunakan big data?
• Perbankan
• Pendidikan
• Pemerintah
• Layanankesehatan
• Manufaktur
• Retail
• dll
9/21/2019 SYK 38
Perbankan
• Dengan sejumlah besar aliran informasi dari sumber yang tak
terhitung jumlahnya, bank dihadapkan dengan menemukan
cara-cara baru dan inovatif untuk mengelola big data.
• Meskipun penting untuk memahami pelanggan dan meningkatkan
kepuasan mereka, sama pentingnya untuk meminimalkan risiko
dan penipuan sambil mempertahankan kepatuhan terhadap
peraturan.
• Big data membawa wawasan besar, tetapi juga membutuhkan
lembaga keuangan untuk tetap selangkah lebih maju dari yang
sudah ada dengan analitik tingkat lanjut.
9/21/2019 SYK 39
Pendidikan
• Pendidik yang dipersenjatai dengan wawasan berbasis data dapat
membuat dampak signifikan pada sistem sekolah, siswa, dan
kurikulum.
• Dengan menganalisis big data, mereka dapat mengidentifikasi
siswa berisiko, memastikan siswa membuat kemajuan yang
memadai, dan dapat menerapkan sistem yang lebih baik untuk
evaluasi dan dukungan guru serta kepala sekolah.

9/21/2019 SYK 40
Pemerintah
• Ketika lembaga pemerintah dapat memanfaatkan dan menerapkan
analitik untuk big data yang dimiliki, pemerintah mendapatkan
sesuatu yang signifikan dalam hal mengelola utilitas, menjalankan
badan-badan, menangani kemacetan lalu lintas atau mencegah
kejahatan.
• Tapi sementara ada banyak keuntungan untuk big data,
pemerintah juga harus mengatasi masalah transparansi dan
privasi.

9/21/2019 SYK 41
Layanan kesehatan
• Catatan pasien. Rencana pengobatan. Informasi resep. Dalam hal
layanan kesehatan, semuanya harus dilakukan dengan cepat,
akurat – dan, dalam beberapa kasus, dengan transparansi memadai
guna memenuhi peraturan industri yang ketat.
• Ketika big data dikelola secara efektif, penyedia layanan
kesehatan dapat menemukan pengetahuan tersembunyi yang
meningkatkan perawatan pasien.

9/21/2019 SYK 42
Manufaktur
• Dipersenjataidengan wawasan yang dapat diberikan oleh big
data, produsen dapat meningkatkan kualitas dan keluaran sambil
meminimalkan limbah – proses yang menjadi kunci dalam pasar
yang sangat kompetitif saat ini.
• Semakin banyak produsen yang bekerja dalam budaya berbasis
analitik, yang berarti produsen dapat menyelesaikan masalah lebih
cepat dan mengambil keputusan bisnis lebih gesit.

9/21/2019 SYK 43
Retail
• Membangun hubungan pelanggan sangat penting bagi industri
retail – dan cara terbaik untuk mengelolanya adalah dengan
mengelola big data.
• Retailer perlu mengetahui cara terbaik untuk memasarkan kepada
pelanggan, cara paling efektif untuk menangani transaksi, dan
cara paling strategis untuk mengembalikan bisnis yang bangkrut.

9/21/2019 SYK 44
9/21/2019 SYK 45
9/21/2019 SYK 46
9/21/2019 SYK 47
DATA SCIENTIST vs DATA ANALYST

9/21/2019 SYK 48
9/21/2019 SYK 49

Anda mungkin juga menyukai