Thomas Erl-Big Data Analytics Lifecycle

Machine Translated by Google
Siklus Hidup Analisis Big Data
Analisis Big Data berbeda dari analisis data tradisional terutama karena karakteristik
volume, kecepatan, dan variasi dari data yang sedang diproses. Untuk mengatasi persyaratan
yang berbeda untuk melakukan analisis pada Big Data, diperlukan metodologi langkah demi
langkah untuk mengatur aktivitas dan tugas yang terkait dengan memperoleh, memproses,
menganalisis, dan menggunakan kembali data. Bagian yang akan datang mengeksplorasi siklus
hidup analitik data spesifik yang mengatur dan mengelola tugas dan aktivitas yang terkait dengan analisis B
Dari perspektif adopsi dan perencanaan Big Data, penting bahwa selain siklus hidup, pertimbangan
dibuat untuk masalah pelatihan, pendidikan, perkakas, dan penempatan staf tim analitik data.
Siklus hidup analitik Big Data dapat dibagi menjadi sembilan tahap berikut, seperti yang ditunjukkan pada
Gambar 3.6:
1. Evaluasi Kasus Bisnis
2. Identifikasi Data
3. Akuisisi & Penyaringan Data

4. Ekstraksi Data
5. Validasi & Pembersihan Data
6. Agregasi & Representasi Data
7. Analisis Data
8. Visualisasi Data
9. Pemanfaatan Hasil Analisis

Gambar 3.6 Sembilan tahap siklus hidup analitik Big Data.
Evaluasi Kasus Bisnis

Setiap siklus hidup analitik Big Data harus dimulai dengan kasus bisnis yang terdefinisi dengan
baik yang menyajikan pemahaman yang jelas tentang pembenaran, motivasi, dan tujuan pelaksanaan
analisis. Tahap Evaluasi Kasus Bisnis yang ditunjukkan pada Gambar 3.7 mensyaratkan bahwa kasus
bisnis dibuat, dinilai, dan disetujui sebelum melanjutkan dengan tugas analisis langsung yang
sebenarnya.
Gambar 3.7 Tahap 1 dari siklus hidup analitik Big Data.

Evaluasi kasus bisnis analitik Big Data membantu pembuat keputusan memahami sumber
daya bisnis yang perlu digunakan dan tantangan bisnis mana yang akan ditangani oleh
analisis. Identifikasi KPI lebih lanjut selama tahap ini dapat membantu menentukan kriteria
penilaian dan panduan untuk evaluasi hasil analitik. Jika KPI tidak tersedia, upaya harus
dilakukan untuk membuat tujuan proyek analisis SMART, yang berarti spesifik, terukur,
dapat dicapai, relevan, dan tepat waktu.
Berdasarkan persyaratan bisnis yang didokumentasikan dalam kasus bisnis, dapat
menentukan apakah masalah bisnis yang ditangani benar-benar masalah Big Data.
Untuk memenuhi syarat sebagai masalah Big Data, masalah bisnis harus terkait langsung dengan satu
atau lebih karakteristik volume, kecepatan, atau variasi Big Data.
Perhatikan juga bahwa hasil lain dari tahap ini adalah penentuan anggaran dasar yang diperlukan untuk
melaksanakan proyek analisis. Setiap pembelian yang diperlukan, seperti peralatan, perangkat keras, dan
pelatihan, harus dipahami terlebih dahulu sehingga investasi yang diantisipasi dapat dibandingkan dengan
manfaat yang diharapkan dari pencapaian tujuan. Iterasi awal dari siklus hidup analitik Big Data akan
membutuhkan lebih banyak investasi awal untuk teknologi, produk, dan pelatihan Big Data dibandingkan
dengan iterasi selanjutnya di mana investasi sebelumnya ini dapat dimanfaatkan berulang kali.
Identifikasi Data
Tahap Identifikasi Data yang ditunjukkan pada Gambar 3.8 didedikasikan untuk mengidentifikasi kumpulan
data yang diperlukan untuk proyek analisis dan sumbernya.
Gambar 3.8 Identifikasi Data adalah tahap 2 dari siklus hidup analitik Big Data.
Mengidentifikasi variasi sumber data yang lebih luas dapat meningkatkan kemungkinan
menemukan pola dan korelasi tersembunyi. Misalnya, untuk memberikan wawasan, akan
bermanfaat untuk mengidentifikasi sebanyak mungkin jenis sumber data terkait, terutama bila
tidak jelas apa yang harus dicari.
Bergantung pada ruang lingkup bisnis dari proyek analisis dan sifat masalah bisnis yang
ditangani, kumpulan data yang diperlukan dan sumbernya dapat berasal dari internal dan/atau
eksternal perusahaan.
Dalam kasus kumpulan data internal, daftar kumpulan data yang tersedia dari sumber internal, seperti
data mart dan sistem operasional, biasanya disusun dan dicocokkan dengan spesifikasi kumpulan data
yang telah ditentukan sebelumnya.
Dalam kasus kumpulan data eksternal, daftar kemungkinan penyedia data pihak ketiga, seperti pasar
data dan kumpulan data yang tersedia untuk umum, disusun. Beberapa bentuk data eksternal mungkin
disematkan di dalam blog atau jenis situs web berbasis konten lainnya, dalam hal ini data tersebut mungkin
perlu diambil melalui alat otomatis.
Akuisisi dan Penyaringan Data

Selama tahap Akuisisi dan Penyaringan Data, ditunjukkan pada Gambar 3.9, data dikumpulkan dari semua
sumber data yang telah diidentifikasi selama tahap sebelumnya. Data yang diperoleh kemudian mengalami
pemfilteran otomatis untuk menghilangkan data yang rusak atau data yang dianggap tidak memiliki nilai
untuk tujuan analisis.
Bergantung pada jenis sumber data, data dapat berupa kumpulan file, seperti data yang dibeli dari penyedia
data pihak ketiga, atau mungkin memerlukan integrasi API, seperti dengan Twitter. Dalam banyak kasus,
terutama ketika menyangkut data eksternal dan tidak terstruktur, beberapa atau sebagian besar data yang
diperoleh mungkin tidak relevan (noise) dan dapat dibuang sebagai bagian dari proses penyaringan.
Data yang diklasifikasikan sebagai "rusak" dapat mencakup catatan dengan nilai yang hilang atau tidak
masuk akal atau tipe data yang tidak valid. Data yang disaring untuk satu analisis mungkin berharga untuk a
jenis analisis yang berbeda. Oleh karena itu, disarankan untuk menyimpan salinan verbatim dari
kumpulan data asli sebelum melanjutkan pemfilteran. Untuk meminimalkan ruang penyimpanan yang
diperlukan, salinan verbatim dapat dikompresi.
Baik data internal maupun eksternal perlu dipertahankan setelah dihasilkan atau memasuki batas
perusahaan. Untuk analitik batch, data ini disimpan ke disk sebelum analisis. Dalam kasus analitik
waktu nyata, data dianalisis terlebih dahulu dan kemudian disimpan ke disk.
Sebagaimana dibuktikan pada Gambar 3.10, metadata dapat ditambahkan melalui otomatisasi ke
data dari sumber data internal dan eksternal untuk meningkatkan klasifikasi dan kueri. Contoh metadata
yang ditambahkan mencakup ukuran dan struktur set data, informasi sumber, tanggal dan waktu
pembuatan atau pengumpulan, dan informasi khusus bahasa. Sangat penting bahwa metadata dapat
dibaca oleh mesin dan diteruskan ke tahap analisis berikutnya. Ini membantu mempertahankan sumber
data di sepanjang siklus hidup analitik Big Data, yang membantu membangun dan menjaga akurasi dan
kualitas data.
Gambar 3.10 Metadata ditambahkan ke data dari sumber internal dan eksternal.
Ekstraksi Data
Beberapa data yang diidentifikasi sebagai masukan untuk analisis mungkin datang dalam format
yang tidak sesuai dengan solusi Big Data. Kebutuhan untuk mengatasi jenis data yang berbeda lebih
mungkin dengan data dari sumber eksternal. Tahap siklus hidup Ekstraksi Data, yang ditunjukkan pada
Gambar 3.11, didedikasikan untuk mengekstraksi data yang berbeda dan mengubahnya menjadi format
yang dapat digunakan oleh solusi Big Data untuk tujuan analisis data.
Tingkat ekstraksi dan transformasi yang diperlukan bergantung pada jenis analitik dan kemampuan solusi
Big Data. Misalnya, mengekstrak bidang wajib dari data tekstual terbatas, seperti dengan file log server
web, mungkin tidak diperlukan jika solusi Big Data yang mendasarinya sudah dapat memproses file tersebut
secara langsung.
Demikian pula, mengekstraksi teks untuk analitik teks, yang memerlukan pemindaian seluruh dokumen,
disederhanakan jika solusi Big Data yang mendasarinya dapat langsung membaca dokumen dalam format
aslinya.
Gambar 3.12 mengilustrasikan ekstraksi komentar dan ID pengguna yang disematkan di dalam dokumen XML
tanpa perlu transformasi lebih lanjut.
Gambar 3.12 Komentar dan ID pengguna diekstraksi dari dokumen XML.
Gambar 3.13 menunjukkan ekstraksi koordinat lintang dan bujur pengguna dari satu bidang JSON.
Gambar 3.13 ID pengguna dan koordinat pengguna diekstraksi dari satu bidang JSON.
Transformasi lebih lanjut diperlukan untuk memisahkan data menjadi dua bidang terpisah seperti yang
dipersyaratkan oleh solusi Big Data.
Validasi dan Pembersihan Data

Data yang tidak valid dapat membelokkan dan memalsukan hasil analisis. Tidak seperti data perusahaan
tradisional, di mana struktur data telah ditentukan sebelumnya dan data telah divalidasi sebelumnya, input data
ke dalam analisis Big Data dapat dibuat tidak terstruktur tanpa indikasi validitas apa pun. Kompleksitasnya
selanjutnya dapat mempersulit untuk sampai pada satu set kendala validasi yang sesuai.
Tahap Validasi dan Pembersihan Data yang ditunjukkan pada Gambar 3.14 didedikasikan untuk menetapkan
aturan validasi yang sering rumit dan menghapus data tidak valid yang diketahui.
Solusi Big Data sering kali menerima data redundan di berbagai kumpulan data. Redundansi ini dapat dimanfaatkan
untuk menjelajahi kumpulan data yang saling berhubungan untuk menyusun parameter validasi dan mengisi data valid
yang hilang.
Misalnya, seperti yang diilustrasikan pada Gambar 3.15:
• Nilai pertama dalam Kumpulan Data B divalidasi terhadap nilai terkaitnya dalam Kumpulan Data
A.
• Nilai kedua dalam Kumpulan Data B tidak divalidasi terhadap nilai terkaitnya di
Dataset A.
• Jika ada nilai yang hilang, nilai tersebut dimasukkan dari Dataset A.
Gambar 3.15 Validasi data dapat digunakan untuk memeriksa dataset yang saling berhubungan untuk mengisi data
valid yang hilang.
Untuk analitik batch, validasi dan pembersihan data dapat dicapai melalui operasi ETL offline. Untuk analitik
waktu nyata, sistem dalam memori yang lebih kompleks diperlukan untuk memvalidasi dan membersihkan data
saat datang dari sumbernya. Provenance dapat memainkan peran penting dalam menentukan keakuratan dan
kualitas data yang dipertanyakan. Data yang tampak tidak valid mungkin masih berharga karena memiliki pola dan
tren tersembunyi, seperti yang ditunjukkan pada Gambar 3.16.
Gambar 3.16 Adanya data yang tidak valid mengakibatkan lonjakan. Meskipun data tampak tidak normal, ini
mungkin merupakan indikasi pola baru.
Agregasi dan Representasi Data

Data dapat tersebar di beberapa kumpulan data, yang mengharuskan kumpulan data digabungkan bersama melalui
kolom umum, misalnya tanggal atau ID. Dalam kasus lain, bidang data yang sama mungkin muncul di beberapa
kumpulan data, seperti tanggal lahir. Either way, metode rekonsiliasi data diperlukan atau kumpulan data yang mewakili
nilai yang benar perlu ditentukan.
Tahap Agregasi dan Representasi Data, ditunjukkan pada Gambar 3.17, didedikasikan untuk mengintegrasikan
beberapa kumpulan data secara bersamaan untuk mendapatkan tampilan terpadu.
Melakukan tahap ini bisa menjadi rumit karena perbedaan dalam:
• Struktur Data – Meskipun format datanya mungkin sama, model datanya mungkin sama
berbeda.
• Semantik – Nilai yang diberi label berbeda dalam dua set data yang berbeda dapat memiliki
arti yang sama, misalnya “nama belakang” dan “nama belakang”.
Volume besar yang diproses oleh solusi Big Data dapat membuat agregasi data menjadi waktu dan
operasi intensif usaha. Mendamaikan perbedaan-perbedaan ini membutuhkan logika kompleks yang
dijalankan secara otomatis tanpa perlu campur tangan manusia.
Persyaratan analisis data di masa mendatang perlu dipertimbangkan selama tahap ini untuk membantu
mendorong penggunaan kembali data. Apakah agregasi data diperlukan atau tidak, penting untuk dipahami
bahwa data yang sama dapat disimpan dalam berbagai bentuk. Satu bentuk mungkin lebih cocok untuk jenis
analisis tertentu daripada yang lain. Misalnya, data yang disimpan sebagai BLOB akan sedikit berguna jika
analisis memerlukan akses ke bidang data individual.
Struktur data yang distandarisasi oleh solusi Big Data dapat bertindak sebagai penyebut umum yang dapat
digunakan untuk berbagai teknik dan proyek analisis. Hal ini memerlukan pembuatan pusat, repositori
analisis standar, seperti database NoSQL, seperti yang ditunjukkan pada Gambar 3.18.
Gambar 3.18 Contoh sederhana agregasi data di mana dua dataset diagregasi bersama menggunakan
kolom Id.
Gambar 3.19 menunjukkan potongan data yang sama yang disimpan dalam dua format berbeda.
Dataset A berisi potongan data yang diinginkan, tetapi merupakan bagian dari BLOB yang tidak mudah diakses
untuk kueri. Kumpulan data B berisi bagian data yang sama yang diatur dalam penyimpanan berbasis kolom,
memungkinkan setiap bidang untuk dikueri satu per satu.
Gambar 3.19 Dataset A dan B dapat digabungkan untuk membuat struktur data standar dengan solusi
Big Data.
Analisis Data
Tahap Analisis Data yang ditunjukkan pada Gambar 3.20 didedikasikan untuk
melaksanakan tugas analisis yang sebenarnya, yang biasanya melibatkan satu atau lebih
jenis analitik. Tahap ini dapat bersifat iteratif, terutama jika analisis data bersifat eksplorasi,
di mana analisis kasus diulang sampai ditemukan pola atau korelasi yang sesuai. Pendekatan
analisis eksplorasi akan dijelaskan secara singkat, bersama dengan analisis konfirmatori.

Bergantung pada jenis hasil analitik yang diperlukan, tahap ini bisa sesederhana menanyakan kumpulan data untuk
menghitung agregasi untuk perbandingan. Di sisi lain, ini bisa sama menantangnya dengan menggabungkan penambangan
data dan teknik analisis statistik yang kompleks untuk menemukan pola dan anomali atau menghasilkan model statistik
atau matematika untuk menggambarkan hubungan antar variabel.
Analisis data dapat diklasifikasikan sebagai analisis konfirmasi atau analisis eksplorasi, yang terakhir dikaitkan dengan
penambangan data, seperti yang ditunjukkan pada Gambar 3.21.
Gambar 3.21 Analisis data dapat dilakukan sebagai analisis konfirmasi atau eksplorasi.
Analisis data konfirmasi adalah pendekatan deduktif di mana penyebab dari fenomena yang diselidiki diusulkan
sebelumnya. Penyebab atau asumsi yang diajukan disebut hipotesis. Data kemudian dianalisis untuk membuktikan atau
menyangkal hipotesis dan memberikan jawaban pasti untuk pertanyaan spesifik. Teknik pengambilan sampel data
biasanya digunakan.
Temuan atau anomali yang tidak terduga biasanya diabaikan karena penyebab yang telah ditentukan telah diasumsikan.
Analisis data eksplorasi adalah pendekatan induktif yang terkait erat dengan penambangan data. Tidak ada hipotesis
atau asumsi yang telah ditentukan yang dihasilkan. Sebaliknya, data dieksplorasi melalui analisis untuk mengembangkan
pemahaman tentang penyebab fenomena tersebut.
Meskipun mungkin tidak memberikan jawaban pasti, metode ini memberikan arahan umum yang dapat memudahkan
penemuan pola atau anomali.
Visualisasi data
Kemampuan untuk menganalisis data dalam jumlah besar dan menemukan wawasan yang bermanfaat tidak banyak
nilainya jika satu-satunya yang dapat menginterpretasikan hasilnya adalah para analis.
Tahap Visualisasi Data, ditunjukkan pada Gambar 3.22, didedikasikan untuk menggunakan teknik dan
alat visualisasi data untuk mengkomunikasikan hasil analisis secara grafis untuk interpretasi yang efektif oleh
pengguna bisnis.

Pengguna bisnis harus dapat memahami hasil untuk mendapatkan nilai dari analisis dan
selanjutnya memiliki kemampuan untuk memberikan umpan balik, seperti yang ditunjukkan oleh
garis putus-putus dari tahap 8 kembali ke tahap 7.
Hasil penyelesaian tahap Visualisasi Data memberikan pengguna kemampuan untuk
melakukan analisis visual, memungkinkan ditemukannya jawaban atas pertanyaan yang bahkan
belum dirumuskan oleh pengguna. Teknik analisis visual dibahas nanti dalam buku ini.
Hasil yang sama dapat disajikan dalam beberapa cara yang berbeda, yang dapat mempengaruhi
interpretasi hasil. Akibatnya, penting untuk menggunakan teknik visualisasi yang paling sesuai
dengan menjaga domain bisnis dalam konteks.
Aspek lain yang perlu diingat adalah bahwa menyediakan metode menelusuri
statistik yang relatif sederhana sangatlah penting, agar pengguna dapat memahami bagaimana
hasil gabungan atau agregat dihasilkan.
Pemanfaatan Hasil Analisis Setelah

hasil analisis tersedia bagi pengguna bisnis untuk mendukung pengambilan keputusan bisnis,
seperti melalui dasbor, mungkin ada peluang lebih lanjut untuk memanfaatkan hasil analisis.
Tahap Pemanfaatan Hasil Analisis, yang ditunjukkan pada Gambar 3.23, didedikasikan untuk
menentukan bagaimana dan di mana data analisis yang diproses dapat dimanfaatkan lebih lanjut.

Bergantung pada sifat masalah analisis yang ditangani, hasil analisis dapat menghasilkan
"model" yang merangkum wawasan dan pemahaman baru tentang sifat pola dan
hubungan yang ada dalam data yang dianalisis. Model mungkin terlihat seperti
persamaan matematika atau seperangkat aturan. Model dapat digunakan untuk
meningkatkan logika proses bisnis dan logika sistem aplikasi, dan mereka dapat membentuk
dasar dari sistem baru atau program perangkat lunak.
Area umum yang dieksplorasi selama tahap ini meliputi:
• Input untuk Sistem Perusahaan – Hasil analisis data dapat dimasukkan secara otomatis atau manual
langsung ke sistem perusahaan untuk meningkatkan dan mengoptimalkan perilaku dan kinerjanya.
Misalnya, toko online dapat diberi makan hasil analisis terkait pelanggan yang diproses yang dapat
memengaruhi cara menghasilkan rekomendasi produk. Model baru dapat digunakan untuk meningkatkan
logika pemrograman dalam sistem perusahaan yang ada atau dapat membentuk dasar sistem baru.
• Pengoptimalan Proses Bisnis – Pola, korelasi, dan anomali yang teridentifikasi yang ditemukan selama analisis
data digunakan untuk memperbaiki proses bisnis. Contohnya adalah mengkonsolidasikan rute transportasi
sebagai bagian dari proses rantai pasokan.
Model juga dapat mengarah pada peluang untuk meningkatkan logika proses bisnis.
• Peringatan – Hasil analisis data dapat digunakan sebagai masukan untuk peringatan yang ada atau dapat
menjadi dasar peringatan baru. Misalnya, peringatan dapat dibuat untuk memberi tahu pengguna melalui email
atau teks SMS tentang peristiwa yang mengharuskan mereka mengambil tindakan korektif.
Contoh Studi Kasus
Mayoritas tim TI ETI yakin bahwa Big Data adalah peluru perak yang akan mengatasi semua masalah
mereka saat ini. Namun, anggota TI yang terlatih menunjukkan bahwa mengadopsi Big Data tidak sama
dengan hanya mengadopsi platform teknologi.
Sebaliknya, serangkaian faktor pertama-tama perlu dipertimbangkan untuk memastikan adopsi Big Data
berhasil. Oleh karena itu, untuk memastikan bahwa dampak dari faktor-faktor terkait bisnis dipahami
sepenuhnya, tim TI duduk bersama dengan manajer bisnis untuk membuat laporan kelayakan. Melibatkan
personel bisnis pada tahap awal ini akan lebih membantu menciptakan lingkungan yang mengurangi
kesenjangan antara harapan yang dirasakan manajemen dan apa yang sebenarnya dapat diberikan oleh
TI.
Terdapat pemahaman yang kuat bahwa penerapan Big Data berorientasi pada bisnis dan akan membantu
ETI dalam mencapai tujuannya. Kemampuan Big Data untuk menyimpan dan memproses data tidak
terstruktur dalam jumlah besar dan menggabungkan beberapa kumpulan data akan membantu ETI
memahami risiko. Perusahaan berharap, sebagai hasilnya, dapat meminimalkan kerugian dengan hanya
menerima pelamar yang kurang berisiko sebagai pelanggan. Demikian pula, ETI memprediksi bahwa
kemampuan untuk melihat ke dalam data perilaku pelanggan yang tidak terstruktur dan menemukan
perilaku abnormal selanjutnya akan membantu mengurangi kerugian karena klaim penipuan dapat ditolak.
Keputusan untuk melatih tim IT di bidang Big Data telah meningkatkan kesiapan ETI untuk
mengadopsi Big Data. Tim percaya bahwa mereka sekarang memiliki keterampilan dasar yang diperlukan
untuk melakukan inisiatif Big Data. Data yang diidentifikasi dan dikategorikan sebelumnya menempatkan tim
pada posisi yang kuat untuk memutuskan teknologi yang dibutuhkan.
Keterlibatan awal manajemen bisnis juga telah memberikan wawasan yang memungkinkan mereka
mengantisipasi perubahan yang mungkin diperlukan di masa depan untuk menjaga platform solusi Big Data
sejalan dengan kebutuhan bisnis yang muncul.
Pada tahap awal ini, hanya segelintir sumber data eksternal, seperti media sosial dan data sensus, yang
telah teridentifikasi. Disepakati oleh personel bisnis bahwa anggaran yang cukup akan dialokasikan untuk
perolehan data dari penyedia data pihak ketiga. Mengenai privasi, pengguna bisnis agak berhati-hati dalam
memperolehnya
data tambahan tentang pelanggan dapat memicu ketidakpercayaan pelanggan. Namun,

diperkirakan bahwa skema yang digerakkan oleh insentif, seperti premi yang lebih rendah,
dapat diperkenalkan untuk mendapatkan persetujuan dan kepercayaan pelanggan. Saat
mempertimbangkan masalah keamanan, tim TI mencatat bahwa upaya pengembangan tambahan
akan diperlukan untuk memastikan bahwa kontrol akses berbasis peran standar tersedia untuk
data yang disimpan dalam lingkungan solusi Big Data. Ini sangat relevan untuk database sumber
terbuka yang akan menyimpan data non-relasional.
Meskipun pengguna bisnis bersemangat untuk dapat melakukan analitik mendalam melalui
penggunaan data yang tidak terstruktur, mereka mengajukan pertanyaan mengenai sejauh mana
mereka dapat mempercayai hasilnya, karena analisis tersebut melibatkan data dari penyedia
data pihak ketiga. Tim TI menanggapi bahwa kerangka kerja akan diadopsi untuk menambahkan
dan memperbarui metadata untuk setiap kumpulan data yang disimpan dan diproses sehingga
sumbernya dipertahankan setiap saat dan hasil pemrosesan dapat ditelusuri hingga ke sumber
data konstituen.
Sasaran ETI saat ini termasuk mengurangi waktu yang diperlukan untuk menyelesaikan klaim
dan mendeteksi klaim palsu. Pencapaian tujuan ini akan membutuhkan solusi yang memberikan
hasil tepat waktu. Namun, tidak diantisipasi bahwa dukungan analisis data waktu nyata akan
diperlukan. Tim IT percaya bahwa tujuan ini dapat dipenuhi dengan mengembangkan solusi Big
Data berbasis batch yang memanfaatkan teknologi Big Data open source.
Infrastruktur TI ETI saat ini terdiri dari standar jaringan yang relatif lebih tua. Demikian
pula, spesifikasi sebagian besar server, seperti kecepatan prosesor, kapasitas disk, dan
kecepatan disk, menentukan bahwa mereka tidak mampu memberikan kinerja pemrosesan data
yang optimal. Oleh karena itu disepakati bahwa infrastruktur TI saat ini memerlukan peningkatan
sebelum solusi Big Data dapat dirancang dan dibangun.
Baik tim bisnis maupun TI sangat yakin bahwa kerangka kerja tata kelola Big Data
diperlukan tidak hanya untuk membantu mereka menstandarkan penggunaan sumber data yang
berbeda, tetapi juga sepenuhnya mematuhi peraturan terkait privasi data.
Selanjutnya, karena fokus bisnis dari analisis data dan untuk memastikan hasil analisis
yang bermakna dihasilkan, diputuskan bahwa pendekatan analisis data iteratif yang mencakup
personel bisnis dari departemen terkait perlu diadopsi. Misalnya, dalam skenario “meningkatkan
retensi pelanggan”, tim pemasaran dan penjualan dapat disertakan dalam proses analisis data
langsung dari pemilihan kumpulan data sehingga hanya atribut yang relevan dari kumpulan data
tersebut yang dipilih.
Nantinya, tim bisnis dapat memberikan umpan balik yang berharga dalam hal interpretasi dan
penerapan hasil analisis.
Sehubungan dengan komputasi awan, tim TI mengamati bahwa tidak ada sistemnya yang saat
ini dihosting di awan dan bahwa tim tersebut tidak memiliki keahlian terkait awan. Fakta-fakta ini
di samping masalah privasi data mengarahkan tim TI pada keputusan untuk membangun solusi
Big Data di tempat. Grup mencatat bahwa mereka akan membiarkan opsi hosting berbasis cloud
terbuka karena ada beberapa spekulasi bahwa sistem CRM internal mereka dapat diganti dengan
solusi CRM perangkat lunak sebagai layanan yang dihosting di cloud di masa mendatang.
Siklus Hidup Analisis Big Data

Perjalanan Big Data ETI telah mencapai tahap di mana tim TI-nya memiliki keterampilan
yang diperlukan dan manajemen yakin akan manfaat potensial yang dapat dihasilkan oleh
solusi Big Data dalam mendukung tujuan bisnis. CEO dan direktur sangat ingin melihat Big
Data beraksi. Menanggapi hal ini, tim TI, bermitra dengan personel bisnis, mengerjakan
proyek Big Data pertama ETI. Setelah proses evaluasi menyeluruh, tujuan “deteksi klaim
penipuan” dipilih sebagai solusi Big Data pertama. Tim kemudian mengikuti pendekatan langkah
demi langkah sebagaimana ditetapkan oleh Siklus Hidup Big Data Analytics untuk mencapai
tujuan ini.
Evaluasi Kasus Bisnis

Melakukan analisis Big Data untuk "mendeteksi klaim penipuan" secara langsung
berhubungan dengan penurunan kerugian moneter dan karenanya membawa dukungan
bisnis yang lengkap. Meskipun penipuan terjadi di keempat sektor bisnis ETI, untuk menjaga
agar analisis tetap sederhana, ruang lingkup analisis Big Data terbatas pada identifikasi
penipuan di sektor bangunan.
ETI menyediakan asuransi bangunan dan isi untuk pelanggan domestik dan komersial.
Meskipun penipuan asuransi dapat bersifat oportunistik dan terorganisir, penipuan
oportunistik dalam bentuk kebohongan dan pembesar-besaran mencakup sebagian besar
kasus. Untuk mengukur keberhasilan solusi Big Data untuk pendeteksian kecurangan, salah
satu KPI yang ditetapkan adalah pengurangan klaim penipuan sebesar 15%.
Dengan mempertimbangkan anggaran mereka, tim memutuskan bahwa pengeluaran terbesar

mereka adalah pengadaan infrastruktur baru yang sesuai untuk membangun lingkungan solusi
Big Data. Mereka menyadari bahwa mereka akan memanfaatkan teknologi open source untuk
mendukung pemrosesan batch dan karena itu tidak percaya bahwa diperlukan investasi awal
yang besar untuk perkakas. Namun, ketika mereka mempertimbangkan siklus hidup analitik
Big Data yang lebih luas, anggota tim menyadari bahwa mereka harus menganggarkan untuk
akuisisi kualitas data tambahan dan alat pembersih serta teknologi visualisasi data yang lebih
baru. Setelah memperhitungkan pengeluaran ini, analisis biaya-manfaat mengungkapkan
bahwa investasi dalam solusi Big Data dapat kembali dengan sendirinya beberapa kali lipat jika
KPI pendeteksi penipuan yang ditargetkan dapat dicapai. Sebagai hasil dari analisis ini, tim
percaya bahwa ada kasus bisnis yang kuat untuk menggunakan Big Data untuk meningkatkan
analisis data.
Identifikasi Data
Sejumlah dataset internal dan eksternal diidentifikasi. Data internal meliputi data polis,
dokumen aplikasi asuransi, data klaim, catatan penyesuaian klaim, foto insiden, catatan
agen call center dan email. Data eksternal meliputi data media sosial (umpan Twitter),
laporan cuaca, data geografis (GIS), dan data sensus. Hampir semua kumpulan data
mundur lima tahun ke belakang. Data klaim terdiri dari data klaim historis yang terdiri dari
beberapa bidang di mana salah satu bidang menentukan apakah klaim itu palsu atau sah.
Akuisisi dan Penyaringan Data

Data polis diperoleh dari sistem administrasi polis, data klaim, foto insiden dan catatan
penyesuaian klaim diperoleh dari sistem manajemen klaim dan dokumen aplikasi asuransi
diperoleh dari sistem manajemen dokumen. Catatan penyesuaian klaim saat ini disematkan
dalam data klaim. Karenanya proses terpisah digunakan untuk mengekstraknya. Catatan dan
email agen pusat panggilan diperoleh dari sistem CRM.
Kumpulan data lainnya diperoleh dari penyedia data pihak ketiga. Salinan terkompresi dari
versi asli semua kumpulan data disimpan di disk. Dari perspektif asalnya, metadata berikut
dilacak untuk menangkap silsilah setiap kumpulan data: nama kumpulan data, sumber,
ukuran, format, checksum, tanggal yang diperoleh, dan jumlah catatan. Pemeriksaan cepat
kualitas data umpan Twitter dan laporan cuaca menunjukkan bahwa sekitar empat hingga
lima persen catatan mereka rusak.
Akibatnya, dua pekerjaan pemfilteran data batch ditetapkan untuk menghapus catatan
yang rusak.
Ekstraksi Data
Tim TI mengamati bahwa beberapa kumpulan data perlu diproses terlebih dahulu untuk
mengekstrak bidang yang diperlukan. Misalnya, kumpulan data tweet berformat JSON.
Untuk dapat menganalisis tweet, id pengguna, stempel waktu , dan teks tweet perlu
diekstraksi dan diubah menjadi bentuk tabel. Selanjutnya, kumpulan data cuaca tiba dalam
format hierarkis (XML), dan bidang-bidang seperti stempel waktu, prakiraan suhu, prakiraan
kecepatan angin, prakiraan arah angin, prakiraan salju , dan prakiraan banjir juga diekstrak
dan disimpan dalam bentuk tabel.
Validasi dan Pembersihan Data

Untuk menekan biaya, ETI saat ini menggunakan cuaca versi gratis dan kumpulan data
sensus yang tidak dijamin 100% akurat. Akibatnya, kumpulan data ini perlu divalidasi
dan dibersihkan. Berdasarkan informasi bidang yang dipublikasikan, tim dapat memeriksa
bidang yang diekstraksi untuk kesalahan ketik dan data yang salah serta validasi tipe data
dan rentang. Aturan ditetapkan bahwa record tidak akan dihapus jika berisi beberapa
tingkat informasi yang bermakna meskipun beberapa bidangnya mungkin berisi data yang
tidak valid.
Agregasi dan Representasi Data

Untuk analisis data yang bermakna, diputuskan untuk menggabungkan data polis, data klaim,
dan catatan agen pusat panggilan dalam satu kumpulan data yang bersifat tabular di mana
setiap bidang dapat dirujuk melalui kueri data. Hal ini diperkirakan tidak hanya akan membantu
tugas analisis data saat ini untuk mendeteksi klaim penipuan, tetapi juga akan membantu
tugas analisis data lainnya, seperti evaluasi risiko dan penyelesaian klaim yang cepat. Dataset
yang dihasilkan disimpan dalam database NoSQL.
Analisis data
Tim TI melibatkan analis data pada tahap ini karena tidak memiliki keahlian yang tepat
untuk menganalisis data guna mendukung pendeteksian klaim penipuan. Untuk dapat
mendeteksi transaksi penipuan, pertama-tama sifat klaim penipuan perlu
dianalisis untuk menemukan karakteristik mana yang membedakan klaim penipuan

dari klaim yang sah. Untuk ini, pendekatan analisis data eksplorasi diambil.
Sebagai bagian dari analisis ini, berbagai teknik analisis diterapkan, beberapa di
antaranya dibahas di Bab 8. Tahap ini diulangi beberapa kali karena hasil yang
dihasilkan setelah langkah pertama tidak cukup meyakinkan untuk memahami apa yang
membuat klaim curang. berbeda dengan gugatan yang sah. Sebagai bagian dari latihan
ini, atribut yang kurang menunjukkan klaim palsu dihilangkan sementara atribut yang
memiliki hubungan langsung dipertahankan atau ditambahkan.
Visualisasi data
Tim telah menemukan beberapa temuan menarik dan sekarang perlu menyampaikan
hasilnya kepada aktuaris, penjamin emisi dan penaksir klaim. Metode visualisasi yang
berbeda digunakan termasuk grafik batang dan garis dan plot pencar. Plot pencar
digunakan untuk menganalisis kelompok klaim palsu dan sah berdasarkan berbagai
faktor, seperti usia pelanggan, usia polis, jumlah klaim yang dibuat , dan nilai klaim.
Pemanfaatan Hasil Analisis

Berdasarkan hasil analisis data, pengguna underwriting dan penyelesaian klaim kini telah
mengembangkan pemahaman tentang sifat klaim penipuan. Namun, untuk mewujudkan
manfaat nyata dari latihan analisis data ini, dibuat model berdasarkan teknik pembelajaran
mesin, yang kemudian digabungkan ke dalam sistem pemrosesan klaim yang ada untuk
menandai klaim penipuan. Teknik pembelajaran mesin yang terlibat akan dibahas dalam
Bab 8.

Thomas Erl-Big Data Analytics Lifecycle

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Thomas Erl-Big Data Analytics Lifecycle

Diunggah oleh

Hak Cipta:

Format Tersedia

Machine Translated by Google

Siklus Hidup Analisis Big Data

3. Akuisisi & Penyaringan Data

5. Validasi & Pembersihan Data

6. Agregasi & Representasi Data

9. Pemanfaatan Hasil Analisis

Gambar 3.6 Sembilan tahap siklus hidup analitik Big Data.

Evaluasi Kasus Bisnis

Gambar 3.7 Tahap 1 dari siklus hidup analitik Big Data.

Akuisisi dan Penyaringan Data

Gambar 3.9 Tahap 3 dari siklus hidup analitik Big Data.

Gambar 3.11 Tahap 4 dari siklus hidup analitik Big Data.

Gambar 3.12 Komentar dan ID pengguna diekstraksi dari dokumen XML.

Validasi dan Pembersihan Data

Gambar 3.14 Tahap 5 dari siklus hidup analitik Big Data.

Misalnya, seperti yang diilustrasikan pada Gambar 3.15:

Agregasi dan Representasi Data

Gambar 3.17 Tahap 6 dari siklus hidup analitik Big Data.

Melakukan tahap ini bisa menjadi rumit karena perbedaan dalam:

Gambar 3.20 Tahap 7 dari siklus hidup analitik Big Data.

Gambar 3.22 Tahap 8 dari siklus hidup analitik Big Data.

Pemanfaatan Hasil Analisis Setelah

Gambar 3.23 Tahap 9 dari siklus hidup analitik Big Data.

Contoh Studi Kasus

data tambahan tentang pelanggan dapat memicu ketidakpercayaan pelanggan. Namun,

Siklus Hidup Analisis Big Data

Evaluasi Kasus Bisnis

Dengan mempertimbangkan anggaran mereka, tim memutuskan bahwa pengeluaran terbesar

Akuisisi dan Penyaringan Data

Validasi dan Pembersihan Data

Agregasi dan Representasi Data

dianalisis untuk menemukan karakteristik mana yang membedakan klaim penipuan

Pemanfaatan Hasil Analisis

Anda mungkin juga menyukai