1. Reprocessing
Saat ini, perusahaan yang bergerak di setiap bidang harus dapat
memanfaatkan apa yang berpotensi menjadi sumber aset penting, namun
menantang untuk diolah: big data. Terdiri dari informasi-informasi perusahaan yang
disimpan secara internal seperti informasi mengenai penjualan dan pelanggan, data
transaksional dan riset, serta informasi eksternal dan media sosial.
Big data ini sebagian besar tidak terstruktur dan akan bertumbuh secara
konstan. Data-data ini sebagian besar berbentuk teks, itulah mengapa natural
language processing (NLP) big data adalah peluang besar berikutnya.
Tidak lagi hanya sebuah kata yang populer, frasa "big data" menggambarkan
volume informasi yang terstruktur, tidak terstruktur, dan informasi dari berbagai
sumber yang terlalu besar untuk ditangani oleh aplikasi pengolah data tradisional.
Daripada memahami satu kata atau kombinasi dari kata-kata tersebut, NLP
membantu computer memahami kalimat saat kalimat itu dikatakan atau ditulis oleh
manusia. NLP menggunakan sejumlah metodologi untuk menguraikan ambiguitas
dalam bahasa, termasuk ringkasan otomatis, disambiguasi, ektraksi entitas dan
hubungan, serta disambiguasi dan pemahaman dan pengenalan natural language.
Terlepas dari bidangnya, setiap bisnis saat ini bergantung pada jumlah besar
informasi teks. Sebagai contoh, sebuah firma hukum bekerja dengan sejumlah besar
hasil penelitian, dokumen transaksi legal yang sudah lalu maupun yang masih
berlangsung, catatan-catatan, email korespondensi, serta informasi pemerintah dan
referensi khusus dalam ukuran besar pula.
Ini memberikan manfaat bagi kedua pihak, pelanggan dapat dengan mudah
berkomunikasi dengan perusahaan tempat mereka melakukan bisnis kapanpun dan
dimanapun, dan bagi perusahaan yang semakin menyadari penghematan dengan
mengurangi jumlah panggilan yang ditangani secara konvensional.
Pengguna tidak lagi dibatasi oleh keharusan memilih atau mengetahui kata
kunci yang 'benar' untuk mengambil apa yang mereka cari melainkan mereka dapat
berinteraksi dengan konten melalui pencarian menggunakan query dengan kata-kata
mereka sendiri.
Teknologi NLP mungkin masih terdengar asing bagi sebagian besar pelaku
industri di Indonesia. Wajar saja karena teknologi ini masuk sebagai tambahan fitur
dari big data. Tetapi, kini Indonesia juga memiliki analitik yang sudah mencakup fitur
NLP sendiri bernama Paques. Paques adalah big data asli Indonesia yang sudah
memiliki fitur NLP dan machine learning tersendiri. Yang lebih luar biasa, Paques
didukung oleh NLP yang berbahasa Indonesia sehingga memudahkan pengguna di
Indonesia untuk memanfaatkannya.
Dengan semakin bertumbuhnya basis konsumen online, saluran media sosial
adalah sumber informasi berharga yang sangat kaya dan bising. Dengan
menggunakan NLP untuk analisis sentiment, perusahaan dapat memahami apa yang
dikatakan masyarakat tentang brand dan produknya, serta sentiment bagaimana
brand atau perusahaan itu diperbincangkan.
Apa yang konsumen rasakan tentang pelayanan yang diterima dan apa yang
dipikirkan konsumen tentang produk atau konsep/ide yang diusung perusahaan.Ini
adalah cara yang ampuh untuk menemukan informasi tentang pasar dan tentang
konsumen/calon konsumen potensial. Informasi-informasi ini dapat diaplikasikan
pada pengembangan produk, business intelligence dan riset pasar.
Dimensional Modeling
Ralph Kimball, seorang ahli dalam pergudangan data, memperkenalkan
Pemodelan Dimensi kepada dunia. Bukunya 'The Data Warehouse Toolkit -
Panduan Lengkap untuk Pemodelan Dimensi "adalah klasik dari pemodelan data
warehouse di bidang rekayasa data warehouse. Pemodelan Dimensi membahas
masalah pengambilan keputusan analitis dan analisis kebutuhan. Oleh karena itu,
ia berfokus terutama pada memungkinkan pengguna untuk dengan cepat
menyelesaikan analisis kebutuhan sambil mempertahankan kinerja tinggi ketika
menangani pertanyaan besar dan kompleks. Contoh-contoh khas dari Pemodelan
Dimensi adalah model bintang dan model kepingan salju. Desain model meliputi
langkah-langkah berikut:
• Pilih aplikasi yang melibatkan analisis dan pengambilan keputusan. Aplikasi
dapat berupa acara bisnis tunggal, misalnya, mengeluarkan pengembalian dana,
keadaan suatu peristiwa, misalnya, saldo akun atau proses yang berisi serangkaian
acara yang saling terkait. Ini terutama tergantung pada apakah kita sedang
melihat serangkaian peristiwa, keadaan saat ini, atau efisiensi dari aliran
peristiwa.
• Pilih rincian. Dalam analisis peristiwa, kita perlu menentukan tingkat sub-divisi
untuk semua analisis terlebih dahulu untuk menentukan rinciannya. Granularity
adalah kombinasi dimensi.
• Identifikasi tabel dimensi. Setelah memilih granularity, rancang tabel dimensi
berdasarkan granularity, termasuk atribut dimensi. Tabel ini menyajikan
pengelompokan dan penyaringan selama analisis.
• Pilih fakta. Tentukan indikator mana yang harus Anda ukur selama analisis.
• Hub: Hub adalah entitas bisnis inti perusahaan. Ini terdiri dari kunci entitas,
kunci pengganti serial data warehouse, waktu pemuatan, dan sumber data.
• Tautan: Tautan menunjukkan hubungan antar hub. Perbedaan terbesar antara
Data Vault Model dan Model ER adalah bahwa hubungan diabstraksi sebagai unit
independen, yang meningkatkan skalabilitas model. Tautan dapat secara langsung
menggambarkan hubungan antara 1: 1, 1: n dan n: n tanpa membuat perubahan
apa pun. Ini terdiri dari kunci pengganti hub, waktu pemuatan, dan sumber data.
• Satelit: Satelit mencakup uraian terperinci tentang hub. Satu hub mungkin
memiliki beberapa satelit. Satelit terdiri dari kunci pengganti hub, waktu
pemuatan, jenis sumber, dan deskripsi hub terperinci.
Lebih mudah untuk merancang dan membuat Model Data Vault daripada
Model ER, dan pemrosesan ETL dari Model Data Vault dapat dikonfigurasi. Dan
Linstedt memberi kami analogi berikut untuk lebih memahami konsep Gudang
Data: Bayangkan hub sebagai kerangka manusia dewasa, tautan sebagai ligamen
yang menghubungkan kerangka, dan satelit sebagai daging dan darah.
Anchor Model
Model Anchor selanjutnya menormalkan model data vault. Tujuan awal
dari Lars Rönnbäck adalah untuk merancang model yang sangat skalabel. Konsep
intinya adalah bahwa semua ekspansi melibatkan penambahan daripada
modifikasi. Oleh karena itu, ia menormalkan model menjadi 6NF, dan itu menjadi
model struktural K-V. Model Anchor terdiri dari yang berikut:
• anchor: Jangkar mirip dengan Hub di Model Vault Data. Mereka mewakili entitas
bisnis dan hanya memiliki kunci utama.
• Atribut: Atribut mirip dengan satelit dalam Data Vault Model tetapi lebih
dinormalisasi. Mereka berada dalam struktur K-V. Setiap tabel menggambarkan
atribut hanya satu jangkar.
• ties : ties menunjukkan hubungan antara Jangkar dan dideskripsikan
menggunakan tabel. Ikatan serupa dengan tautan dalam Data Vault Model dan
dapat meningkatkan kemampuan ekspansi model umum.
• Knot: Knot mewakili atribut yang dapat dibagi oleh banyak jangkar, misalnya
atribut yang disebutkan dan publik seperti jenis kelamin dan negara.
Kita dapat lebih lanjut membagi empat objek dasar ini menjadi objek historis dan
non-historis, di mana objek historis merekam perubahan dalam data
menggunakan cap waktu dan menyimpan banyak catatan.
3. Visualisasi data
Apa itu visualisai data ?
Setelah data divisualisasi dalam bentuk grafik yang menarik, pembaca akan dengan
mudah dapat mengidentifikasi hal unik dan tren dari data tersebut. “Misalnya,
seseorang yang berada di industri makanan akan menggunakan visualisasi data
untuk mengidentifikasi naiknya kebutuhan makanan siap saji,” kata Nayoko, advisor
Algoritma. Setelah kenaikan kebutuhan ini ditemukan, para pembuat keputusan
dapat dengan langsung menentukan kebijakan yang tepat untuk kelancaran bisnis.
Selain itu, visualisasi data juga dapat menggambarkan relasi dan pola antara variabel
yang ada dalam data. Para pengambil keputusan akan melihat koneksi antara data
yang bersifat multi-dimensi tersebut. Misalnya, kenaikan harga pangan ternyata
dipengaruhi oleh kurangnya pasokan bahan makanan dan tingginya tingkat
permintaan atas bahan makanan tersebut. Informasi seperti ini dapat dilihat dari
visualisasi data yang sudah disederhanakan. Dengan demikian, para pengambil
keputusan dapat berinteraksi dengan data dan mengambil suatu aksi yang paling
efektif untuk bisnis mereka.
Contoh diagram digunakan pada visualisasi data
Visual
Nama
Dimensi
ukuran nodes
warna node
Jaringan ketebalan ikatan
warna ikatan
spasialisasi
panjang
Grafik Batang warna
waktu
lebar
Streamgraph warna
waktu (alur)
ukuran
Treemap
warna
warna
Gantt Chart
waktu (alur)
posisi x
posisi y
Scatter Plot (3D)
posisi z
warna
4. Jenis Teknologi Big Data : Big Data Operasional dan Big Data
Analitis
Dalam hal Teknologi, bentangan Big Data didominasi oleh dua jenis teknologi Big
Data yaitu: (1) Big Data operasional: sistem yang memiliki kapabilitas operasional untuk
pekerjaan-pekerjaan bersifat interaktif dan real time dimana data pada umumnya diserap
dan disimpan; (2) Big Data analitis: sistem yang menyediakan kapabilitas analitis untuk
mengerjakan analisis yang kompleks dan retrospektif yang dapat melibatkan sebagian besar
atau bahkan keseluruhan data. Dalam keberadaannya, kedua jenis teknologi Big Data ini
bersifat saling melengkapi dan sering digunakan secara bersamaan.
Beban kerja operasional dan analitis terhadap Big Data telah menyebabkan
kebutuhan sistem yang berlawanan satu sama lain, dan sistem Big Data saat ini telah
berevolusi untuk menangani kedua jenis kerja tersebut secara khusus, terpisah, dan dengan
cara yang sangat berbeda. Baik kebutuhan kerja operasional maupun analitis untuk Big
Data, masing-masing telah mendorong penciptaan arsitektur-arsitektur teknologi baru.
Sistem operasional, seperti halnya NoSQL database, berfokus pada pelayanan terhadap
permintaan akses yang tinggi yang terjadi dalam waktu bersamaan, dengan tetap
memberikan respon yang seketika (low latency) terhadap permintaan akses tersebut. Akses
data terhadap sistem operasional ini dapat dilakukan dengan berbagai pilihan kriteria. Dilain
pihak, sistem analitis cenderung berfokus pada penanganan arus data yang lebih besar,
query-query yang ditujukan pada data tersebut bisa sangat kompleks, dan setiap kali
dieksekusi dapat melibatkan sebagian besar atau keseluruhan data yang ada dalam sistem.
Baik sistem Big Data operasional maupun sistem Big Data analitis, kedua-duanya
dioperasikan dengan melibatkan sejumlah servers yang tergabung dalam suatu cluster
komputer, dan digunakan untuk mengelola puluhan atau ratusan terabytes data yang
memuat miliaran record.
Terlebih lagi, sistem Big Data dengan database NoSQL telah didesain untuk
memanfaatkan keunggulan dari arsitektur cloud computing (komputasi awan) yang telah
muncul dalam dekade terakhir ini. Hal ini memungkinkan dijalankannya komputasi berskala
besar secara efisien dan dengan biaya yang relatif lebih murah. Sebagai hasilnya, sistem
NoSQL dengan komputasi awan ini telah menjadikan perangkat kerja Big Data operasional
lebih mudah dikelola, serta dapat diimplementasikan dengan lebih murah dan cepat.
Teknologi Big Data Analitis
Dilain pihak, pekerjaan-pekerjaan Big Data analitis cenderung diproses dengan
mengimplementasikan sistem database MPP dan MapReduce. Munculnya teknologi ini juga
merupakan reaksi terhadap keterbatasan dan kurangnya kemampuan relational database
tradisional untuk mengelola database dalam skala lebih dari satu server (terdistribusi).
Disamping itu, MapReduce juga menawarkan metode baru dalam menganalisa data yang
dapat berfungsi sebagai pelengkap terhadap kapabilitas SQL.