Tahapan Dalam Pengolahan Big Data

Tahapan dalam pengolahan Big Data
1. Reprocessing
Saat ini, perusahaan yang bergerak di setiap bidang harus dapat
memanfaatkan apa yang berpotensi menjadi sumber aset penting, namun
menantang untuk diolah: big data. Terdiri dari informasi-informasi perusahaan yang
disimpan secara internal seperti informasi mengenai penjualan dan pelanggan, data
transaksional dan riset, serta informasi eksternal dan media sosial.
Big data ini sebagian besar tidak terstruktur dan akan bertumbuh secara
konstan. Data-data ini sebagian besar berbentuk teks, itulah mengapa natural
language processing (NLP) big data adalah peluang besar berikutnya.
Apa itu big data?
Tidak lagi hanya sebuah kata yang populer, frasa "big data" menggambarkan
volume informasi yang terstruktur, tidak terstruktur, dan informasi dari berbagai
sumber yang terlalu besar untuk ditangani oleh aplikasi pengolah data tradisional.
Dalam hal kegunaannya, big data dikatakan memiliki kemampuan untuk

memanfaatkan informasi dalam jumlah besar dengan cara baru untuk menghasilkan
insight yang berguna atau barang dan atau jasa yang bernilai signifikan. Hal ini
dikutip dari buku "Big Data: A Revolution That Will Transform How We Live, Work,
and Think," karangan Viktor Mayer-Schnberger dan Kenneth Cukier
Apa itu NLP?
Natural language processing (NLP) merupakan suatu bentuk dari kecerdasan

buatan yang membantu mesin 'membaca' teks dengan mensimulasi kemampuan
manusia untuk memahami bahasa. Teknik NLP menggabungkan berbagai metode,
termasuk linguistic, semantic, statistic dan machine learning untuk mengekstrak
entitas, hubungan dan memahami konteks, yang memungkinkan pemahaman
tentang apa yang dikatakan atau ditulis, secara komprehensif.
Daripada memahami satu kata atau kombinasi dari kata-kata tersebut, NLP
membantu computer memahami kalimat saat kalimat itu dikatakan atau ditulis oleh
manusia. NLP menggunakan sejumlah metodologi untuk menguraikan ambiguitas
dalam bahasa, termasuk ringkasan otomatis, disambiguasi, ektraksi entitas dan
hubungan, serta disambiguasi dan pemahaman dan pengenalan natural language.
Permasalahan apa yang dapat diatasi NLP dalam Big Data?
Terlepas dari bidangnya, setiap bisnis saat ini bergantung pada jumlah besar
informasi teks. Sebagai contoh, sebuah firma hukum bekerja dengan sejumlah besar
hasil penelitian, dokumen transaksi legal yang sudah lalu maupun yang masih
berlangsung, catatan-catatan, email korespondensi, serta informasi pemerintah dan
referensi khusus dalam ukuran besar pula.
Lainnya, sebuah perusahaan farmasi akan memiliki sejumlah besar informasi

dan data dari percobaan klinis, catatan-catatan dokter, informasi dan data mengenai
pasien, informasi regulasi dan hak paten serta hasil penelitian terbaru mengenai
kompetitor.
Dikarenakan jenis-jenis informasi seperti di atas sebagian besar terdiri dari

bahasa, NLP yang digunakan dalam big data menyajikan sebuah peluang untuk
memanfaatkan apa yang terkandung dalam data-data tersebut untuk mengungkap
pola, koneksi dan tren dari berbagai sumber data yang berbeda.
Di era ini, teknologi natural language processing sudah mulai digunakan

dalam berbagai aplikasi interaktif yang umum digunakan seperti asisten smartphone,
dalam perbankan online dan self-service tool di industri retail, serta program
terjemahan otomatis. Pengguna mengajukan pertanyaan-pertanyaan dalam bahasa
sehari-hari dan akan langsung mendapatkan jawaban akurat.
Ini memberikan manfaat bagi kedua pihak, pelanggan dapat dengan mudah
berkomunikasi dengan perusahaan tempat mereka melakukan bisnis kapanpun dan
dimanapun, dan bagi perusahaan yang semakin menyadari penghematan dengan
mengurangi jumlah panggilan yang ditangani secara konvensional.
Natural language processing untuk big data dapat dimanfaatkan untuk

mencari informasi yang relevan dan/atau meringkas konten dalam dokumen
berukuran besar untuk mendapatkan insight, semua dilakukan secara otomatis.
Pengguna tidak lagi dibatasi oleh keharusan memilih atau mengetahui kata
kunci yang 'benar' untuk mengambil apa yang mereka cari melainkan mereka dapat
berinteraksi dengan konten melalui pencarian menggunakan query dengan kata-kata
mereka sendiri.
Akses yang lebih cepat dan menyeluruh kepada informasi-informasi tersebut

mempercepat semua proses downstream yang bergantung pada informasi tepat
waktu dan memungkinkan penggunaannya secara real-time.
Teknologi NLP mungkin masih terdengar asing bagi sebagian besar pelaku
industri di Indonesia. Wajar saja karena teknologi ini masuk sebagai tambahan fitur
dari big data. Tetapi, kini Indonesia juga memiliki analitik yang sudah mencakup fitur
NLP sendiri bernama Paques. Paques adalah big data asli Indonesia yang sudah
memiliki fitur NLP dan machine learning tersendiri. Yang lebih luar biasa, Paques
didukung oleh NLP yang berbahasa Indonesia sehingga memudahkan pengguna di
Indonesia untuk memanfaatkannya.
Dengan semakin bertumbuhnya basis konsumen online, saluran media sosial
adalah sumber informasi berharga yang sangat kaya dan bising. Dengan
menggunakan NLP untuk analisis sentiment, perusahaan dapat memahami apa yang
dikatakan masyarakat tentang brand dan produknya, serta sentiment bagaimana
brand atau perusahaan itu diperbincangkan.
Apa yang konsumen rasakan tentang pelayanan yang diterima dan apa yang
dipikirkan konsumen tentang produk atau konsep/ide yang diusung perusahaan.Ini
adalah cara yang ampuh untuk menemukan informasi tentang pasar dan tentang
konsumen/calon konsumen potensial. Informasi-informasi ini dapat diaplikasikan
pada pengembangan produk, business intelligence dan riset pasar.
Jika estimasi yang dikeluarkan International Data Corporation (IDC) terwujud,

akan ada kurang lebih 44 triliun gigabytes konten digital di seluruh dunia pada 2020
(pada hasil penelitian tersebut, diperkirakan pada 2020 setiap orang akan
menghasilkan 1.7 megabytes informasi baru setiap detiknya).
Empat puluh empat triliun gigabytes data tentunya menyimpan banyak

potensi dan Paques mungkin bisa digunakan untuk menganalisa itu semua. Hal ini
juga yang akan membuat NLP untuk big data akan menjadi fitur esensial untuk bisa
menggali nilai dari informasi-informasi ini sehingga menghasilkan insight,
mengurangi biaya operasional serta meningkatkan produktivitas.
Jika estimasi yang dikeluarkan International Data Corporation (IDC) terwujud,

akan ada kurang lebih 44 triliun gigabytes konten digital di seluruh dunia pada 2020
(pada hasil penelitian tersebut, diperkirakan pada 2020 setiap orang akan
menghasilkan 1.7 megabytes informasi baru setiap detiknya).
Empat puluh empat triliun gigabytes data tentunya menyimpan banyak

potensi dan Paques mungkin bisa digunakan untuk menganalisa itu semua. Hal ini
juga yang akan membuat NLP untuk big data akan menjadi fitur esensial untuk bisa
menggali nilai dari informasi-informasi ini sehingga menghasilkan insight,
mengurangi biaya operasional serta meningkatkan produktivitas.
2. Data modelling
Mengapa Pemodelan Data Diperlukan?
Di perpustakaan, kita perlu mengklasifikasikan semua buku dan mengaturnya
di rak untuk memastikan kita dapat dengan mudah mengakses setiap buku.
Demikian pula, jika kita memiliki jumlah data yang sangat besar, kita membutuhkan
sistem atau metode untuk menjaga semuanya tetap teratur. Proses menyortir dan
menyimpan data disebut "pemodelan data.
Model data adalah metode yang dengannya kita dapat mengatur dan
menyimpan data. Sama seperti Sistem Desimal Dewey yang mengatur buku-buku di
perpustakaan, model data membantu kita mengatur data sesuai dengan layanan,
akses, dan penggunaan. Torvalds, pendiri Linux, menyinggung pentingnya
pemodelan data ketika ia menulis sebuah artikel tentang "apa yang membuat
seorang programmer hebat": "Programmer yang buruk peduli dengan kode, dan
programmer yang baik peduli dengan struktur data dan hubungan antara data."
Model dan lingkungan penyimpanan yang sesuai menawarkan manfaat berikut
untuk data besar:
• Kinerja: Model data yang baik dapat membantu kami dengan cepat menanyakan
data yang diperlukan dan mengurangi throughput I / O.
• Biaya: Model data yang baik dapat secara signifikan mengurangi redundansi
data yang tidak perlu, menggunakan kembali hasil komputasi, dan mengurangi
biaya penyimpanan dan komputasi untuk sistem big data.
• Efisiensi: Model data yang baik dapat sangat meningkatkan pengalaman
pengguna dan meningkatkan efisiensi pemanfaatan data.
• Kualitas: Model data yang baik membuat statistik data lebih konsisten dan
mengurangi kemungkinan kesalahan komputasi.
Oleh karena itu, tidak diragukan lagi bahwa sistem data besar
memerlukan metode pemodelan data berkualitas tinggi untuk mengatur dan
menyimpan data, yang memungkinkan kita untuk mencapai keseimbangan
kinerja, biaya, efisiensi, dan kualitas yang optimal.
Sistem Database Relasional dan Gudang Data

E. F. Codd adalah pencetus database relasional. Dia pertama kali
mengusulkan model relasional sistem basis data dan mulai meneliti metodologi
relasional dan teori data relasional. Hampir setiap perusahaan modern
menggunakan database relasional untuk menyimpan dan memproses data. Ini
datang sebagai hasil dari kebangkitan seluruh generasi perangkat lunak data seperti
Oracle, Informix, dan DB2. Sistem data warehouse tidak terkecuali. Banyak sistem
data warehouse menyimpan dan memproses data dengan memanfaatkan kekuatan
database relasional, dan bahkan menggunakan model data yang menggunakan
teori yang sama.
Terlepas dari pertumbuhan pesat baru-baru ini dari infrastruktur
penyimpanan dan komputasi untuk Big Data serta semakin populernya teknologi
NoSQL, Hadoop, Spark, dan MaxCompute Alibaba Cloud masih menggunakan SQL
untuk pemrosesan data skala besar. Data disimpan dalam tabel, dan teori relasional
digunakan untuk menggambarkan hubungan antara data. Namun, ada opsi
berbeda dalam bentuk model data relasional berdasarkan cara Anda mengakses
data.
Modeling Methodology for OLTP and OLAP Systems

Operasi data utama dalam sistem OLTP adalah baca / tulis acak. Sistem
OLTP terutama menggunakan model hubungan entitas yang memenuhi 3NF untuk
menyimpan data untuk memecahkan masalah redundansi data dan inkonsistensi
dalam pemrosesan transaksi. Operasi data utama dalam sistem OLAP adalah batch
read / write. Sistem OLAP berfokus pada integrasi data dan kinerja permintaan data
besar satu kali yang kompleks, dan pemrosesan alih-alih inkonsistensi dalam
pemrosesan transaksi. Oleh karena itu, sistem OLAP perlu menggunakan metode
pemodelan data yang berbeda.
Metodologi Pemodelan Gudang Data Biasa Model ER Metode

pemodelan yang diusulkan oleh Bill Inmon, bapak data warehousing,
adalah untuk merancang model 3NF yang mencakup seluruh perusahaan dan
menggambarkan bisnis perusahaan melalui model entitas-hubungan (ER). Itu
sesuai dengan 3NF dalam bentuk normal. Perbedaan antara 3NF di gudang data
dan 3NF dalam sistem OLTP adalah bahwa 3NF adalah tema penargetan abstraksi
dari perspektif perusahaan daripada secara abstrak menargetkan objek entitas
dalam proses bisnis tertentu. 3NF memiliki fitur berikut:
• Kita perlu memahami bisnis dan data perusahaan secara komprehensif.
• Implementasinya bisa sangat lambat.
• Membutuhkan keterampilan yang signifikan dari pihak pemodel.
Untuk membuat model data warehouse dengan menggunakan
pemodelan ER, pertama-tama kita perlu mengintegrasikan dan menggabungkan
data dalam berbagai sistem secara tematis dan dari perspektif seluruh
perusahaan. Kami kemudian perlu memproses data untuk konsistensi agar
memungkinkan analisis dan pengambilan keputusan berdasarkan data. Namun
data itu sendiri, tidak dapat digunakan secara langsung untuk analisis atau
pengambilan keputusan. Jenis pemodelan ini memiliki tiga fase:
• Pemodelan tingkat tinggi: Model yang sangat abstrak, yang terutama
menggambarkan hubungan antar tema. Kita dapat menggunakan model ini untuk
menggambarkan gambaran umum perusahaan.
• Pemodelan tingkat menengah: Merinci data dan tema berdasarkan model
tingkat tinggi.
• Pemodelan fisik (juga disebut model yang mendasarinya): Dioperasikan oleh
model tingkat menengah untuk merancang karakteristik fisik sesuai dengan
ketersediaan penyimpanan fisik, kinerja, dan karakteristik platform. Ini juga dapat
melibatkan menggabungkan tabel atau mendesain partisi.
Dalam praktiknya, representasi paling umum dari model ER adalah
Financial Data Logical Model Model (FS-LDM) yang dirilis oleh Teradata
berdasarkan pada layanan keuangan. Melalui abstraksi dan ringkasan yang tinggi,
FS-LDM membagi layanan keuangan menjadi sepuluh tema untuk merancang
model gudang keuangan. Dengan FS-LDM, perusahaan dapat menyesuaikan dan
memperluas implementasi pemodelan cepat.
Dimensional Modeling
Ralph Kimball, seorang ahli dalam pergudangan data, memperkenalkan
Pemodelan Dimensi kepada dunia. Bukunya 'The Data Warehouse Toolkit -
Panduan Lengkap untuk Pemodelan Dimensi "adalah klasik dari pemodelan data
warehouse di bidang rekayasa data warehouse. Pemodelan Dimensi membahas
masalah pengambilan keputusan analitis dan analisis kebutuhan. Oleh karena itu,
ia berfokus terutama pada memungkinkan pengguna untuk dengan cepat
menyelesaikan analisis kebutuhan sambil mempertahankan kinerja tinggi ketika
menangani pertanyaan besar dan kompleks. Contoh-contoh khas dari Pemodelan
Dimensi adalah model bintang dan model kepingan salju. Desain model meliputi
langkah-langkah berikut:
• Pilih aplikasi yang melibatkan analisis dan pengambilan keputusan. Aplikasi
dapat berupa acara bisnis tunggal, misalnya, mengeluarkan pengembalian dana,
keadaan suatu peristiwa, misalnya, saldo akun atau proses yang berisi serangkaian
acara yang saling terkait. Ini terutama tergantung pada apakah kita sedang
melihat serangkaian peristiwa, keadaan saat ini, atau efisiensi dari aliran
peristiwa.
• Pilih rincian. Dalam analisis peristiwa, kita perlu menentukan tingkat sub-divisi
untuk semua analisis terlebih dahulu untuk menentukan rinciannya. Granularity
adalah kombinasi dimensi.
• Identifikasi tabel dimensi. Setelah memilih granularity, rancang tabel dimensi
berdasarkan granularity, termasuk atribut dimensi. Tabel ini menyajikan
pengelompokan dan penyaringan selama analisis.
• Pilih fakta. Tentukan indikator mana yang harus Anda ukur selama analisis.
Data Vault Model

Dan Linstedt menggunakan model ER sebagai basis untuk membuat Data
Vault Model. Desain model berguna untuk mengintegrasikan data, tetapi
seseorang tidak dapat menggunakannya secara langsung untuk analisis data dan
pengambilan keputusan.
Model ini menekankan pembentukan lapisan data dasar yang dapat
diaudit yang berfokus pada sejarah data, keterlacakan, dan atomisitas. Itu tidak
memerlukan pemrosesan konsistensi yang berlebihan atau integrasi. Sementara
itu, ia mengatur data perusahaan secara tematis, terstruktur, dan
memperkenalkan pemrosesan formulir normal lebih lanjut untuk
mengoptimalkan model untuk skala yang tepat dengan perubahan pada sistem
sumber. Data Vault Model terdiri dari yang berikut:
• Hub: Hub adalah entitas bisnis inti perusahaan. Ini terdiri dari kunci entitas,
kunci pengganti serial data warehouse, waktu pemuatan, dan sumber data.
• Tautan: Tautan menunjukkan hubungan antar hub. Perbedaan terbesar antara
Data Vault Model dan Model ER adalah bahwa hubungan diabstraksi sebagai unit
independen, yang meningkatkan skalabilitas model. Tautan dapat secara langsung
menggambarkan hubungan antara 1: 1, 1: n dan n: n tanpa membuat perubahan
apa pun. Ini terdiri dari kunci pengganti hub, waktu pemuatan, dan sumber data.
• Satelit: Satelit mencakup uraian terperinci tentang hub. Satu hub mungkin
memiliki beberapa satelit. Satelit terdiri dari kunci pengganti hub, waktu
pemuatan, jenis sumber, dan deskripsi hub terperinci.
Lebih mudah untuk merancang dan membuat Model Data Vault daripada
Model ER, dan pemrosesan ETL dari Model Data Vault dapat dikonfigurasi. Dan
Linstedt memberi kami analogi berikut untuk lebih memahami konsep Gudang
Data: Bayangkan hub sebagai kerangka manusia dewasa, tautan sebagai ligamen
yang menghubungkan kerangka, dan satelit sebagai daging dan darah.
Anchor Model
Model Anchor selanjutnya menormalkan model data vault. Tujuan awal
dari Lars Rönnbäck adalah untuk merancang model yang sangat skalabel. Konsep
intinya adalah bahwa semua ekspansi melibatkan penambahan daripada
modifikasi. Oleh karena itu, ia menormalkan model menjadi 6NF, dan itu menjadi
model struktural K-V. Model Anchor terdiri dari yang berikut:
• anchor: Jangkar mirip dengan Hub di Model Vault Data. Mereka mewakili entitas
bisnis dan hanya memiliki kunci utama.
• Atribut: Atribut mirip dengan satelit dalam Data Vault Model tetapi lebih
dinormalisasi. Mereka berada dalam struktur K-V. Setiap tabel menggambarkan
atribut hanya satu jangkar.
• ties : ties menunjukkan hubungan antara Jangkar dan dideskripsikan
menggunakan tabel. Ikatan serupa dengan tautan dalam Data Vault Model dan
dapat meningkatkan kemampuan ekspansi model umum.
• Knot: Knot mewakili atribut yang dapat dibagi oleh banyak jangkar, misalnya
atribut yang disebutkan dan publik seperti jenis kelamin dan negara.
Kita dapat lebih lanjut membagi empat objek dasar ini menjadi objek historis dan
non-historis, di mana objek historis merekam perubahan dalam data
menggunakan cap waktu dan menyimpan banyak catatan.
Divisi ini memungkinkan penulis Model Anchor untuk mencapai

skalabilitas tinggi. Namun, model ini juga meningkatkan jumlah operasi
permintaan bergabung. Pembuat percaya bahwa analisis dan permintaan di
gudang data dilakukan hanya berdasarkan pada sebagian kecil bidang. Ini mirip
dengan struktur penyimpanan array, yang secara signifikan dapat mengurangi
pemindaian data dan mengurangi dampak pada kinerja permintaan. Beberapa
database dengan fitur penghapusan tabel, misalnya, MariaDB, dapat sangat
mengurangi jumlah operasi gabungan. Namun, ini masih terbuka untuk diskusi.
3. Visualisasi data
Apa itu visualisai data ?
Setelah mengolah data, data scientist bertugas untuk menciptakan visualisasi

data yang mudah dimengerti oleh pembaca. Salah satu kegunaan visualisasi data
adalah untuk menghadirkan bentuk komunikasi data yang konstruktif. Visualisasi
data memberikan informasi yang sangat berguna untuk kepentingan bisnis.
Pengambil keputusan di perusahaan akan dapat dengan mudah melihat dan
mengerti hubungan antar beberapa variabel data, dan lebih canggihnya adalah
hubungan ini dapat dilihat dari segi multi dimensi. Contoh visualisasi data adalah
diagram, peta, grafik, atau representasi visual lainnya.
Setelah data divisualisasi dalam bentuk grafik yang menarik, pembaca akan dengan
mudah dapat mengidentifikasi hal unik dan tren dari data tersebut. “Misalnya,
seseorang yang berada di industri makanan akan menggunakan visualisasi data
untuk mengidentifikasi naiknya kebutuhan makanan siap saji,” kata Nayoko, advisor
Algoritma. Setelah kenaikan kebutuhan ini ditemukan, para pembuat keputusan
dapat dengan langsung menentukan kebijakan yang tepat untuk kelancaran bisnis.
Selain itu, visualisasi data juga dapat menggambarkan relasi dan pola antara variabel
yang ada dalam data. Para pengambil keputusan akan melihat koneksi antara data
yang bersifat multi-dimensi tersebut. Misalnya, kenaikan harga pangan ternyata
dipengaruhi oleh kurangnya pasokan bahan makanan dan tingginya tingkat
permintaan atas bahan makanan tersebut. Informasi seperti ini dapat dilihat dari
visualisasi data yang sudah disederhanakan. Dengan demikian, para pengambil
keputusan dapat berinteraksi dengan data dan mengambil suatu aksi yang paling
efektif untuk bisnis mereka.
Contoh diagram digunakan pada visualisasi data
Visual
Nama
Dimensi
 ukuran nodes
 warna node
Jaringan  ketebalan ikatan
 warna ikatan
 spasialisasi
 panjang
Grafik Batang  warna
 waktu
 lebar
Streamgraph  warna
 waktu (alur)
 ukuran
Treemap
 warna
 warna
Gantt Chart
 waktu (alur)
 posisi x
 posisi y
Scatter Plot (3D)
 posisi z
 warna
4. Jenis Teknologi Big Data : Big Data Operasional dan Big Data
Analitis
Dalam hal Teknologi, bentangan Big Data didominasi oleh dua jenis teknologi Big
Data yaitu: (1) Big Data operasional: sistem yang memiliki kapabilitas operasional untuk
pekerjaan-pekerjaan bersifat interaktif dan real time dimana data pada umumnya diserap
dan disimpan; (2) Big Data analitis: sistem yang menyediakan kapabilitas analitis untuk
mengerjakan analisis yang kompleks dan retrospektif yang dapat melibatkan sebagian besar
atau bahkan keseluruhan data. Dalam keberadaannya, kedua jenis teknologi Big Data ini
bersifat saling melengkapi dan sering digunakan secara bersamaan.
Beban kerja operasional dan analitis terhadap Big Data telah menyebabkan
kebutuhan sistem yang berlawanan satu sama lain, dan sistem Big Data saat ini telah
berevolusi untuk menangani kedua jenis kerja tersebut secara khusus, terpisah, dan dengan
cara yang sangat berbeda. Baik kebutuhan kerja operasional maupun analitis untuk Big
Data, masing-masing telah mendorong penciptaan arsitektur-arsitektur teknologi baru.
Sistem operasional, seperti halnya NoSQL database, berfokus pada pelayanan terhadap
permintaan akses yang tinggi yang terjadi dalam waktu bersamaan, dengan tetap
memberikan respon yang seketika (low latency) terhadap permintaan akses tersebut. Akses
data terhadap sistem operasional ini dapat dilakukan dengan berbagai pilihan kriteria. Dilain
pihak, sistem analitis cenderung berfokus pada penanganan arus data yang lebih besar,
query-query yang ditujukan pada data tersebut bisa sangat kompleks, dan setiap kali
dieksekusi dapat melibatkan sebagian besar atau keseluruhan data yang ada dalam sistem.
Baik sistem Big Data operasional maupun sistem Big Data analitis, kedua-duanya
dioperasikan dengan melibatkan sejumlah servers yang tergabung dalam suatu cluster
komputer, dan digunakan untuk mengelola puluhan atau ratusan terabytes data yang
memuat miliaran record.
Teknologi Big Data Operasional

Untuk menangani pekerjaan-pekerjaan Big Data Operasional, telah dibangun sistem
Big Data dengan database NoSQL seperti halnya database berbasis dokumen (document
based database) yang dapat ditujukan untuk berbagai tipe aplikasi, database key-value
stores, column family stores, dan database graph yang dioptimalkan untuk aplikasi yang
lebih spesifik. Teknologi NoSQL, yang telah dikembangkan untuk mengatasi kekurangan dari
database relasional (relational database) pada lingkungan komputasi modern, dikenal lebih
cepat serta lebih mudah dan murah dalam hal peningkatan skala (more scalable) dibanding
relational databases.
Terlebih lagi, sistem Big Data dengan database NoSQL telah didesain untuk
memanfaatkan keunggulan dari arsitektur cloud computing (komputasi awan) yang telah
muncul dalam dekade terakhir ini. Hal ini memungkinkan dijalankannya komputasi berskala
besar secara efisien dan dengan biaya yang relatif lebih murah. Sebagai hasilnya, sistem
NoSQL dengan komputasi awan ini telah menjadikan perangkat kerja Big Data operasional
lebih mudah dikelola, serta dapat diimplementasikan dengan lebih murah dan cepat.
Teknologi Big Data Analitis
Dilain pihak, pekerjaan-pekerjaan Big Data analitis cenderung diproses dengan
mengimplementasikan sistem database MPP dan MapReduce. Munculnya teknologi ini juga
merupakan reaksi terhadap keterbatasan dan kurangnya kemampuan relational database
tradisional untuk mengelola database dalam skala lebih dari satu server (terdistribusi).
Disamping itu, MapReduce juga menawarkan metode baru dalam menganalisa data yang
dapat berfungsi sebagai pelengkap terhadap kapabilitas SQL.
Dengan semakin populernya penggunaan berbagai jenis aplikasi dan para

penggunanya terus menerus memproduksi data dari pemakaian aplikasi tersebut, terdapat
sejumlah upaya analisa retrospektif yang benar-benar dapat memberikan nilai berarti
terhadap kemajuan bisnis. Ketika upaya-upaya tersebut mesti melibatkan algoritma yang
lebih rumit, MapReduce telah menjadi pilihan pertama untuk melakukan analisa retrospektif
tersebut. Beberapa sistem NoSQL juga menyediakan fungsi MapReduce bawaan yang
memungkinkan proses analisa diterapkan pada data operasional. Sebagai alternatif lain,
data juga dapat dikopi dari sistem NoSQL ke dalam sistem analitis seperti halnya Hadoop
dengan MapReduce-nya.

Tahapan Dalam Pengolahan Big Data

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tahapan Dalam Pengolahan Big Data

Diunggah oleh

Hak Cipta:

Format Tersedia

Tahapan dalam pengolahan Big Data

Apa itu big data?

Dalam hal kegunaannya, big data dikatakan memiliki kemampuan untuk

Apa itu NLP?

Natural language processing (NLP) merupakan suatu bentuk dari kecerdasan

Permasalahan apa yang dapat diatasi NLP dalam Big Data?

Lainnya, sebuah perusahaan farmasi akan memiliki sejumlah besar informasi

Dikarenakan jenis-jenis informasi seperti di atas sebagian besar terdiri dari

Di era ini, teknologi natural language processing sudah mulai digunakan

Natural language processing untuk big data dapat dimanfaatkan untuk

Akses yang lebih cepat dan menyeluruh kepada informasi-informasi tersebut

Jika estimasi yang dikeluarkan International Data Corporation (IDC) terwujud,

Empat puluh empat triliun gigabytes data tentunya menyimpan banyak

Jika estimasi yang dikeluarkan International Data Corporation (IDC) terwujud,

Empat puluh empat triliun gigabytes data tentunya menyimpan banyak

Sistem Database Relasional dan Gudang Data

Modeling Methodology for OLTP and OLAP Systems

Metodologi Pemodelan Gudang Data Biasa Model ER Metode

Data Vault Model

Divisi ini memungkinkan penulis Model Anchor untuk mencapai

Setelah mengolah data, data scientist bertugas untuk menciptakan visualisasi

Teknologi Big Data Operasional

Dengan semakin populernya penggunaan berbagai jenis aplikasi dan para

Anda mungkin juga menyukai