Anda di halaman 1dari 23

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com
Pengantar Cloud Computing untuk Ilmuwan Data
Ada banyak perdebatan tentang apa itu cloud. Banyak orang menganggap
cloud sebagai kumpulan teknologi. Memang benar bahwa ada seperangkat
teknologi umum yang biasanya membentuk lingkungan cloud, tetapi teknologi
ini bukanlah inti dari cloud. Cloud sebenarnya adalah layanan atau grup
layanan. Ini sebagian alasan mengapa cloud sangat sulit untuk didefinisikan.

Definisi Komputasi Awan


Komputasi awan adalah pengiriman layanan teknologi-termasuk komputasi,
penyimpanan, database, jaringan, perangkat lunak, dan banyak lagi-melalui internet
dengan harga bayar sesuai pemakaian.
Komputasi awan terutama memungkinkan perusahaan untuk menyebarkan
aplikasi mereka lebih cepat, tanpa perlu pemeliharaan yang berlebihan, yang
dikelola oleh penyedia layanan. Ini juga mengarah pada penggunaan sumber daya
komputasi yang lebih baik, sesuai kebutuhan dan persyaratan bisnis dari waktu ke
waktu.
Pentingnya layanan data cloud dan cloud

1
Permintaan cloud telah meningkat selama periode waktu tertentu dan juga dalam lima tahun

terakhir, pergeseran dalam penawaran Vendor Cloud telah secara mendasar mengubah cara

perusahaan membeli, menyebarkan, dan menjalankan sistem data besar. Vendor Cloud telah

menyerap lebih banyak penyimpanan data dan teknologi transformasi back-end ke dalam

penawaran inti mereka dan sekarang menyoroti saluran data, analisis, dan alat pemodelan

mereka. Ini adalah berita bagus bagi perusahaan yang menerapkan, memigrasi, atau

meningkatkan sistem data besar. Perusahaan sekarang dapat fokus untuk menghasilkan nilai

dari data dan Machine Learning (ML), daripada membangun tim untuk mendukung perangkat

keras, infrastruktur, dan penerapan/pemantauan aplikasi.

Mengapa Ilmuwan Data dan Insinyur Data Perlu Memahami Cloud dan
layanan datanya?
Semakin banyak beban kerja aplikasi yang berpindah ke platform cloud yang berbeda. Ini

bisa berupa perpindahan ke cloud publik, privat, atau hybrid (di mana yang terakhir adalah

campuran publik dan privat). Beban kerja aplikasi big data dan analitik juga sedang

bergerak. Komunitas teknik ilmu data harus memiliki pemahaman yang baik tentang cloud

ini pada tingkat yang lebih dalam sehingga dapat memanfaatkannya sebaik mungkin untuk

melakukan pekerjaan analitik mereka secara lebih efektif.

Ilmuwan data dan insinyur data telah terbiasa menjalankan pekerjaan pemrosesan
dan analisis data mereka pada lingkungan fisik atau logam kosong hingga

2
sekarang. Tetapi dengan pertumbuhan pesat dalam infrastruktur cloud baru-baru ini, orang-orang

ini perlu memahami infrastruktur virtual baru di dalam cloud mereka, karena sekarang mendasari

dan mengendalikan beban kerja mereka.

Meskipun Internet penuh dengan istilah-istilah yang terkait dengan cloud, berikut adalah

beberapa istilah yang cukup mendasar, tetapi penting, yang harus diketahui oleh

seseorang. Mengetahui istilah-istilah kunci ini akan membantu Anda memahami

perkembangan industri dan tren masa depan dalam komputasi awan.

Mari kita lihat dan pahami dasar-dasarnya. 1.


XaaS (Apa pun sebagai Layanan)
Ini adalah istilah umum yang mengacu pada layanan apa pun yang tersedia
sebagai layanan berkemampuan cloud melalui internet. Kadang juga disebut
'semuanya sebagai layanan'. Ini termasuk SaaS, DaaS, PaaS dan IaaS dll.
2. Perangkat Lunak sebagai Layanan (SaaS)

SaaS terdiri dari aplikasi perangkat lunak, yang dijalankan pada komputer yang
terletak jauh yang kebetulan dimiliki, serta dioperasikan oleh orang lain. Baik

3
contoh aplikasi semacam itu adalah Google Docs, yang merupakan pengolah kata
online berdasarkan lingkungan cloud.
SaaS menawarkan beberapa manfaat utama, seperti akses instan dan penggunaan
aplikasi, aksesibilitas dari mesin apa pun yang terhubung, dan juga tidak ada
kemungkinan kehilangan data, karena disimpan di cloud.
3. Platform sebagai Layanan (PaaS)

PaaS terutama merupakan lingkungan berbasis cloud yang menawarkan semua yang
diperlukan untuk mendukung pembangunan dan penyebaran aplikasi berbasis cloud.
Ini dimungkinkan tanpa pengembang aplikasi harus membeli perangkat keras,
perangkat lunak, manajemen, dan bahkan hosting.
Manfaat utama yang diperoleh dari PaaS adalah aplikasi dapat disebarkan dengan sangat cepat,

tanpa mengkhawatirkan platform. Selain itu, model layanan ini sebagian besar menghemat

biaya dan mengabstraksi seluk-beluk yang mendasarinya.

4. Infrastruktur sebagai Layanan (IaaS)

Infrastructure as a Service, atau IaaS, menyediakan layanan infrastruktur dasar kepada

pelanggan. Layanan ini dapat mencakup mesin fisik, mesin virtual, jaringan, penyimpanan, atau

kombinasi dari semuanya. Anda kemudian dapat membangun apa pun yang Anda butuhkan di

atas infrastruktur yang dikelola. Implementasi IaaS digunakan untuk menggantikan pusat data

yang dikelola secara internal. Mereka memungkinkan organisasi lebih fleksibel tetapi dengan

biaya yang lebih rendah.

Mari kita mengambil Analogi Mobil untuk memahami model layanan cloud.

4
Memahami model layanan cloud menggunakan analogi mobil

Bandingkan gambar di atas dengan yang di bawah ini untuk pemahaman yang lebih baik

5. Awan Publik
Ketika kebanyakan orang berpikir tentang komputasi awan, mereka memikirkan model

layanan awan publik. Dalam model layanan publik, semua sistem dan sumber daya yang

menyediakan layanan ditempatkan di penyedia layanan eksternal. Penyedia layanan

tersebut bertanggung jawab atas pengelolaan dan administrasi sistem yang digunakan

untuk menyediakan layanan. Klien hanya bertanggung jawab atas apa pun

5
perangkat lunak atau aplikasi klien yang diinstal pada sistem pengguna akhir.
Koneksi ke penyedia cloud publik biasanya dilakukan melalui Internet.
6. Awan Pribadi
Di cloud pribadi, sistem dan sumber daya yang menyediakan layanan berada di
dalam perusahaan atau organisasi yang menggunakannya. Organisasi tersebut
bertanggung jawab atas manajemen dan administrasi sistem yang digunakan
untuk menyediakan layanan. Selain itu, organisasi juga bertanggung jawab atas
perangkat lunak atau aplikasi klien yang diinstal pada sistem pengguna akhir.
Private cloud biasanya diakses melalui LAN lokal atau wide area network (WAN).
Dalam kasus pengguna jarak jauh, akses umumnya akan diberikan melalui
Internet atau kadang-kadang melalui penggunaan jaringan pribadi virtual (VPN).

7. Awan Hibrida
Istilah cloud hybrid menyiratkan penggunaan infrastruktur cloud pribadi, bersama dengan

penggunaan layanan cloud yang bersifat publik. Sejujurnya, private cloud tidak bisa benar-

benar ada dengan sendirinya. Sebagian besar bisnis, yang memiliki pengaturan cloud

pribadi, akhirnya mengakses sumber daya cloud publik untuk berbagai tugas sehari-hari.

Hal ini melahirkan istilah hybrid cloud.

Kekuatan awan
● Layanan Cloud
sebuah. Hitung: berikan otak untuk memproses beban kerja Anda

b. Penyimpanan: simpan dan simpan data

6
c. Basis data: simpan kumpulan data yang lebih terstruktur

● Karakteristik Komputasi Awan :


sebuah. Virtualisasi: Teknologi dasar yang mendukung
komputasi awan.
Virtualisasi adalah inti dari semua lingkungan cloud modern — ini adalah

infrastruktur cloud yang ditunjukkan di bawah ini. Unit yang memberikan

fleksibilitas, elastisitas, kemudahan pengelolaan, dan penskalaan di cloud

apa pun adalah mesin virtual — pada dasarnya melalui independensi

perangkat keras dan portabilitas yang ditawarkan mesin virtual.

b. Biaya:
saya. Hanya bayar sumber daya saat Anda menggunakannya

ii. Bayar sesuai yang anda pakai

aku aku aku. Tanpa biaya modal : Membeli hardware dan software

iv. Mengelola infrastruktur di tempat


Dalam beberapa kasus, solusi non-premis mungkin lebih hemat biaya.
Solusi terbaik tergantung pada kasus penggunaan.

c. Keandalan: Membangun keandalan ke lingkungan Anda bisa sangat mahal.

Biasanya melibatkan memiliki beberapa sistem atau bahkan beberapa lokasi

pusat data. Anda harus melakukan pemulihan bencana (DR) dan perencanaan

dan simulasi kontinuitas. Banyak penyedia cloud sudah menyiapkan beberapa

lokasi, jadi jika Anda menggunakan layanan mereka, Anda dapat langsung

menambahkan keandalan ke lingkungan Anda. Anda mungkin harus meminta

agar layanan Anda menggunakan beberapa lokasi, tetapi setidaknya itu adalah

pilihan.

d. Kecepatan:

saya. Akses langsung ke sumber daya cloud yang siap digunakan.

ii. Sumber daya sesuai permintaan.

7
aku aku aku. Waktu penyetelan cepat.

iv. Menyebarkan layanan dalam hitungan menit

e. Performa: Performa dalam sistem cloud terus diukur dan dipantau.


Jika kinerja turun di bawah tingkat tertentu, sistem dapat secara
otomatis menyesuaikan untuk menyediakan lebih banyak
kapasitas, jika itu yang diperlukan. Kehadiran perjanjian tingkat
layanan (SLA) juga menguntungkan. SLA menjamin tingkat kinerja
tertentu. Jika tingkat itu tidak terpenuhi, penyedia layanan
umumnya harus memenuhi beberapa tingkat restitusi. Restitusi ini
seringkali dalam bentuk tolak bayar atau pengurangan biaya. Jadi,
meskipun kinerja itu sendiri tidak terjamin, ada jaminan bahwa
biaya dari kurangnya kinerja dapat dikurangi.

f. Skalabilitas: Tambahkan dan hapus sumber daya dengan mudah sesuai kebutuhan. Contoh:

situs e-commerce. Membutuhkan lebih banyak sumber daya selama waktu puncak. Skala

sumber daya sesuai kebutuhan

g. Kelincahan: Lingkungan cloud dapat menawarkan kelincahan yang luar biasa. Anda dapat

dengan mudah kembali sumber daya yang sesuai bila diperlukan. Ini memungkinkan

Anda untuk menambahkan sumber daya ke sistem yang membutuhkannya dan

mengambilnya dari sistem yang tidak membutuhkannya. Anda juga dapat dengan mudah

menambahkan sistem untuk memperluas kapasitas Anda. Lingkungan cloud internal

memungkinkan Anda memanfaatkan sumber daya infrastruktur internal dengan lebih

baik. Infrastruktur cloud yang menggunakan virtualisasi dapat membantu Anda

meningkatkan kepadatan dan persentase pemanfaatan dari infrastruktur Anda.

Akibatnya, Anda akan cenderung tidak memiliki sistem yang menganggur.

h. Keamanan:

saya. Penyimpanan dan pengelolaan data Anda yang aman.

ii. Pihak eksternal yang bertanggung jawab atas keamanan.

8
aku aku aku. Terutama berisiko untuk bisnis di sektor yang sangat diatur.

iv. Cloud menjadi lebih dan lebih aman.


Dalam beberapa kasus, solusi non-premis mungkin lebih disukai. Solusi terbaik

tergantung pada kasus penggunaan.

Pengantar Ekosistem Hadoop untuk Big Data dan


Rekayasa Data

Kami memiliki lebih dari 4 miliar pengguna di Internet saat ini. Dalam istilah data murni, inilah

tampilan gambarnya:

9.176 Tweet per detik


1.023 gambar Instagram diunggah per detik
5.036 panggilan Skype per detik

86.497 penelusuran Google per detik


86.302 video YouTube ditonton per detik
2.957.983 Email terkirim per detik

dan banyak lagi…


Itulah jumlah data yang kami tangani saat ini – luar biasa! Diperkirakan
pada akhir tahun 2020 kami telah menghasilkan 44 zettabytes data. Itu
44*10̂ 21!

Sejumlah besar data yang dihasilkan dengan kecepatan yang ganas dan dalam semua jenis format

inilah yang kita sebut hari ini sebagai Big data. Tetapi tidak mungkin menyimpan data ini pada sistem

tradisional yang telah kami gunakan selama lebih dari 40 tahun. Untuk menangani data yang sangat

besar ini, kita memerlukan kerangka kerja yang jauh lebih kompleks yang tidak hanya terdiri dari

satu, tetapi beberapa komponen yang menangani operasi yang berbeda.

9
Kami menyebut kerangka ini sebagai Hadoop dan bersama dengan semua komponennya,

kami menyebutnya Ekosistem Hadoop. Tetapi karena ada begitu banyak komponen dalam

ekosistem Hadoop ini, terkadang menjadi sangat menantang untuk benar-benar

memahami dan mengingat apa yang dilakukan setiap komponen dan di mana tempatnya

di dunia yang besar ini.

Masalah dengan Sistem Tradisional


Dengan sistem tradisional, itu berarti sistem seperti Database Relasional dan Gudang Data.

Organisasi telah menggunakannya selama 40 tahun terakhir untuk menyimpan dan

menganalisis data mereka. Tetapi data yang dihasilkan hari ini tidak dapat ditangani oleh

database ini karena alasan berikut:

● Sebagian besar data yang dihasilkan saat ini semi-terstruktur atau tidak terstruktur. Tetapi

sistem tradisional telah dirancang untuk hanya menangani data terstruktur yang memiliki

baris dan kolom yang dirancang dengan baik.

● Database Hubungan dapat diskalakan secara vertikal yang berarti Anda perlu

menambahkan lebih banyak pemrosesan, memori, penyimpanan ke sistem yang sama.

Ini bisa menjadi sangat mahal.

● Data yang disimpan saat ini berada dalam silo yang berbeda. Menyatukan mereka dan

menganalisisnya untuk pola bisa menjadi tugas yang sangat sulit.

Jadi, bagaimana kita menangani Big Data? Di sinilah Hadoop masuk!

10
Apa itu Hadoop?
Orang-orang di Google juga menghadapi tantangan yang disebutkan di atas ketika mereka

ingin memberi peringkat halaman di Internet. Mereka menemukan bahwa Database Relasional

sangat mahal dan tidak fleksibel. Jadi, mereka datang dengan solusi baru mereka sendiri.

Mereka menciptakan Google File System (GFS).

GFS adalah sistem file terdistribusi yang mengatasi kelemahan sistem tradisional.
Ini berjalan pada perangkat keras yang murah dan menyediakan paralelisasi,
skalabilitas, dan keandalan. Ini meletakkan batu loncatan untuk evolusi Apache
Hadoop.

Apache Hadoop adalah kerangka kerja sumber terbuka berdasarkan sistem file Google
yang dapat menangani data besar dalam lingkungan terdistribusi. Lingkungan
terdistribusi ini dibangun dari sekelompok mesin yang bekerja sama secara erat untuk
memberikan kesan bahwa satu mesin bekerja.

Berikut adalah beberapa sifat penting Hadoop yang harus Anda ketahui:

● Hadoop sangat skalabel karena menangani data secara terdistribusi.


● Dibandingkan dengan penskalaan vertikal di RDBMS, Hadoop menawarkan penskalaan horizontal.

● Itu membuat dan menyimpan replika data sehingga toleran terhadap kesalahan.

● Ini ekonomis karena semua node dalam cluster adalah perangkat keras
komoditas yang tidak lain adalah mesin murah.
● Hadoop menggunakan konsep lokalitas data untuk memproses data pada node di

mana mereka disimpan daripada memindahkan data melalui jaringan sehingga

mengurangi lalu lintas.

● Itu dapat menangani semua jenis data: terstruktur, semi-terstruktur, dan tidak

terstruktur. Ini sangat penting di zaman sekarang karena sebagian besar data kami

(email, Instagram, Twitter, perangkat IoT, dll.) tidak memiliki format yang

ditentukan.

11
Sekarang, mari kita lihat komponen ekosistem Hadoop.

Komponen Ekosistem Hadoop

Di bagian ini, kita akan membahas berbagai komponen ekosistem Hadoop.

HDFS (Sistem File Terdistribusi Hadoop)

Ini adalah komponen penyimpanan Hadoop yang menyimpan data dalam bentuk file.
Setiap file dibagi menjadi blok 128MB (dapat dikonfigurasi) dan menyimpannya di
mesin yang berbeda di cluster. Ini memiliki arsitektur master-slave dengan dua

12
komponen utama: Node Nama dan Node Data.
● Node nama adalah node master dan hanya ada satu per cluster. Tugasnya
adalah untuk mengetahui di mana setiap blok milik file berada di cluster
● Data node adalah node slave yang menyimpan blok data dan terdapat
lebih dari satu per cluster. Tugasnya adalah mengambil data saat dan
saat diperlukan. Itu terus berhubungan dengan node Nama melalui detak
jantung

PetaKurangi

Untuk menangani Big Data, Hadoop mengandalkan algoritma MapReduce yang diperkenalkan oleh

Google dan memudahkan untuk mendistribusikan pekerjaan dan menjalankannya secara paralel dalam

sebuah cluster. Ini pada dasarnya membagi satu tugas menjadi beberapa tugas dan memprosesnya di

mesin yang berbeda.

Dalam istilah awam, ia bekerja dengan cara membagi-dan-menaklukkan dan


menjalankan proses pada mesin untuk mengurangi lalu lintas di jaringan. Ini memiliki
dua fase penting: Map dan Reduce.

Filter fase peta, grup, dan sortir data. Data input dibagi menjadi beberapa bagian.
Setiap tugas peta bekerja pada pemisahan data secara paralel pada mesin yang
berbeda dan menghasilkan pasangan nilai kunci. Output dari fase ini ditindaklanjuti
oleh tugas pengurangan dan dikenal sebagai fase Reduce. Ini mengumpulkan data,
merangkum hasilnya, dan menyimpannya di HDFS.

13
BENANG

BENANG atau Negosiator Sumber Daya Lain mengelola sumber daya di cluster dan mengelola

aplikasi melalui Hadoop. Ini memungkinkan data yang disimpan dalam HDFS untuk diproses

dan dijalankan oleh berbagai mesin pemrosesan data seperti pemrosesan batch, pemrosesan

aliran, pemrosesan interaktif, pemrosesan grafik, dan banyak lagi. Hal ini meningkatkan

efisiensi dengan penggunaan BENANG.

HBase

HBase adalah database NoSQL berbasis Kolom. Ini berjalan di atas HDFS dan dapat
menangani semua jenis data. Ini memungkinkan pemrosesan waktu nyata dan
operasi baca/tulis acak dilakukan dalam data.

Babi

14
Pig dikembangkan untuk menganalisis kumpulan data besar dan mengatasi kesulitan

untuk menulis peta dan mengurangi fungsi. Ini terdiri dari dua komponen: Pig Latin dan

Pig Engine.

Pig Latin adalah Bahasa Scripting yang mirip dengan SQL. Pig Engine adalah mesin
eksekusi yang dijalankan oleh Pig Latin. Secara internal, kode yang ditulis dalam Pig
diubah menjadi fungsi MapReduce dan membuatnya sangat mudah bagi programmer
yang tidak mahir dalam Java.

Sarang lebah

Hive adalah sistem gudang data terdistribusi yang dikembangkan oleh Facebook. Ini memungkinkan

untuk membaca, menulis, dan mengelola file dengan mudah di HDFS. Ia memiliki bahasa query

sendiri untuk tujuan yang dikenal sebagai Hive Querying Language (HQL) yang sangat mirip dengan

SQL. Ini membuatnya sangat mudah bagi programmer untuk menulis fungsi MapReduce

menggunakan kueri HQL sederhana.

Skup

Banyak aplikasi masih menyimpan data dalam database relasional, sehingga menjadikannya

sumber data yang sangat penting. Oleh karena itu, Sqoop memainkan peran penting dalam

15
membawa data dari Database Relasional ke HDFS.

Perintah yang ditulis dalam Sqoop secara internal diubah menjadi tugas MapReduce yang

dijalankan melalui HDFS. Ia bekerja dengan hampir semua database relasional seperti MySQL,

Postgres, SQLite, dll. Ini juga dapat digunakan untuk mengekspor data dari HDFS ke RDBMS.

Saluran

Flume adalah layanan sumber terbuka, andal, dan tersedia yang digunakan untuk mengumpulkan,

mengagregasi, dan memindahkan data dalam jumlah besar secara efisien dari berbagai sumber data ke

HDFS. Itu dapat mengumpulkan data secara real-time serta dalam mode batch. Ini memiliki arsitektur yang

fleksibel dan toleran terhadap kesalahan dengan beberapa mekanisme pemulihan.

Kafka

Ada banyak aplikasi yang menghasilkan data dan sejumlah aplikasi yang menggunakan
data tersebut. Tetapi menghubungkan mereka secara individual adalah tugas yang
sulit. Di situlah Kafka masuk. Ia berada di antara aplikasi yang menghasilkan data
(Produsen) dan aplikasi yang menggunakan data (Konsumen).

Kafka didistribusikan dan memiliki partisi, replikasi, dan toleransi kesalahan bawaan.

16
Itu dapat menangani data streaming dan juga memungkinkan bisnis untuk menganalisis data secara real-

time.

Oozie

Oozie adalah sistem penjadwal alur kerja yang memungkinkan pengguna untuk menautkan pekerjaan yang

ditulis di berbagai platform seperti MapReduce, Hive, Pig, dll. Dengan menggunakan Oozie, Anda dapat

menjadwalkan pekerjaan terlebih dahulu dan dapat membuat saluran pekerjaan individu untuk dieksekusi

secara berurutan atau paralel dengan mencapai tugas yang lebih besar. Misalnya, Anda dapat menggunakan

Oozie untuk melakukan operasi ETL pada data dan kemudian menyimpan output dalam HDFS.

Penjaga kebun binatang

Dalam cluster Hadoop, mengoordinasikan dan menyinkronkan node bisa menjadi tugas yang menantang. Oleh

karena itu, Zookeeper adalah alat yang sempurna untuk masalah tersebut.

Ini adalah layanan open-source, terdistribusi, dan terpusat untuk memelihara


informasi konfigurasi, penamaan, menyediakan sinkronisasi terdistribusi, dan
menyediakan layanan grup di seluruh cluster.

17
Percikan

Spark adalah kerangka kerja alternatif untuk Hadoop yang dibangun di atas Scala tetapi mendukung

beragam aplikasi yang ditulis dalam Java, Python, dll. Dibandingkan dengan MapReduce, Spark

menyediakan pemrosesan dalam memori yang menghasilkan pemrosesan lebih cepat. Selain

pemrosesan batch yang ditawarkan oleh Hadoop, ia juga dapat menangani pemrosesan waktu nyata.

Selanjutnya, Spark memiliki ekosistemnya sendiri:

● Inti Percikanadalah mesin eksekusi utama untuk Spark dan API lain yang dibangun di

atasnya

● Spark SQL APImemungkinkan untuk menanyakan data terstruktur yang disimpan

dalam tabel DataFrames atau Hive

● Streaming APImemungkinkan Spark untuk menangani data real-time. Itu dapat dengan

mudah diintegrasikan dengan berbagai sumber data seperti Flume, Kafka, dan Twitter

18
● MLlibadalah perpustakaan pembelajaran mesin yang dapat diskalakan yang

memungkinkan Anda melakukan tugas ilmu data sambil memanfaatkan properti Spark

secara bersamaan

● GrafikXadalah mesin komputasi grafik yang memungkinkan pengguna untuk secara interaktif

membangun, mengubah, dan menalar tentang data terstruktur grafik dalam skala besar dan

dilengkapi dengan perpustakaan algoritme umum

Tahapan Pemrosesan Big Data


Dengan begitu banyak komponen dalam ekosistem Hadoop, bisa menjadi sangat menakutkan dan

sulit untuk memahami apa yang dilakukan masing-masing komponen. Oleh karena itu, lebih mudah

untuk mengelompokkan beberapa komponen bersama berdasarkan di mana mereka berada dalam

tahap pemrosesan Big Data.

● Flume, Kafka, dan Sqoop digunakan untuk menyerap data dari sumber eksternal

ke HDFS

● HDFS adalah unit penyimpanan Hadoop. Bahkan data yang diimpor dari Hbase

disimpan melalui HDFS

● MapReduce dan Spark digunakan untuk memproses data pada HDFS dan

melakukan berbagai tugas

19
● Pig, Hive, dan Spark digunakan untuk menganalisis data

● Oozie membantu menjadwalkan tugas. Karena berfungsi dengan berbagai platform, ini

digunakan di seluruh tahapan

● Zookeeper menyinkronkan node cluster dan digunakan di seluruh


tahapan juga

Perbedaan Antara Big Data dan Gudang Data

Data besar: Big Data pada dasarnya mengacu pada data yang bervolume besar dan

memiliki kumpulan data yang kompleks. Data dalam jumlah besar ini dapat terstruktur,

semi-terstruktur, atau tidak terstruktur dan tidak dapat diproses oleh perangkat lunak dan

database pengolah data tradisional. Berbagai operasi seperti analisis, manipulasi,

perubahan, dll dilakukan pada data dan kemudian digunakan oleh perusahaan untuk

pengambilan keputusan yang cerdas. Big data adalah aset yang sangat kuat di dunia saat

ini. Data besar juga dapat digunakan untuk mengatasi masalah bisnis dengan menyediakan

pengambilan keputusan yang cerdas.

Gudang data: Data Warehouse pada dasarnya adalah kumpulan data dari berbagai
sumber yang heterogen. Ini adalah komponen utama dari sistem intelijen bisnis di
mana analisis dan pengelolaan data dilakukan yang selanjutnya digunakan untuk
meningkatkan pengambilan keputusan. Ini melibatkan proses ekstraksi, pemuatan,
dan transformasi untuk menyediakan data untuk analisis. Gudang data juga
digunakan untuk melakukan kueri pada sejumlah besar data. Ini menggunakan
data dari berbagai database relasional dan file log aplikasi.

Di bawah ini adalah tabel perbedaan antara Big Data dan Data Warehouse:

Tidak. Data besar Gudang data

1. Data besar adalah data dalam Data warehouse adalah kumpulan


bentuk yang sangat besar yang data historis dari berbagai

20
teknologi dapat diterapkan. operasi dalam suatu perusahaan.

2. Big data adalah teknologi untuk Data warehouse adalah arsitektur yang
menyimpan dan mengelola data dalam digunakan untuk mengatur data.
jumlah besar.

3. Dibutuhkan terstruktur, Hanya membutuhkan data terstruktur sebagai

tidak terstruktur atau input.

data semi terstruktur sebagai input.

4. Big data melakukan pemrosesan dengan Gudang data tidak menggunakan


menggunakan sistem file terdistribusi. sistem file terdistribusi untuk
pemrosesan.

5. Data besar tidak mengikuti kueri SQL Di gudang data kami menggunakan
apa pun untuk mengambil data dari kueri SQL untuk mengambil data dari
database. database relasional.

6. Apache Hadoop dapat digunakan Data warehouse tidak dapat digunakan


untuk menangani sejumlah besar untuk menangani sejumlah besar data.
data.

7. Ketika data baru ditambahkan, Ketika data baru ditambahkan,


perubahan data disimpan dalam perubahan data tidak secara langsung
bentuk file yang: berdampak pada gudang data.
diwakili oleh sebuah tabel.

8. Big data tidak memerlukan teknik Gudang data membutuhkan teknik


manajemen yang efisien dibandingkan manajemen yang lebih efisien
dengan data warehouse. karena data dikumpulkan dari
berbagai departemen perusahaan.

Sumber Bahan:
https://www.analyticsvidhya.com/blog/2020/10/introduction-hadoop-e
cosystem/

21
https://medium.com/analytics-vidhya/an-intro-to-cloud-computing-for
- ilmuwan-data-dan-insinyur-data-96d85b4852de

https://www.geeksforgeeks.org/difference-between-big-data-and-data
- gudang/

Sumber Bacaan Lainnya:


https://www.techopedia.com/definition/1825/distributed-file-system-df
s#:~:text=A%20distributed%20file%20system%20

https://aws.amazon.com/big-data/what-is-hive/

https://www.tutorialspoint.com/impala/impala_overview.htm

https://www.Oracle.com/database/what-is-a-data-warehouse/

https://www.analyticsvidhya.com/blog/2021/07/a-brief-introduction-to
- gudang data/#:~:text=A%20data%20warehouse%20is%20terutama,
besar%20jumlah%20dari%20historis%20data .

https://apprenda.com/library/cloud/introduction-to-cloud-computing/
# :~:text=Cloud%20computing%20terdiri%20dari%20tiga,sebagai%20a%20

layanan%20sampai%20pelanggan .

https://dataprivacymanager.net/security-vs-privacy/

https://panoply.io/data-warehouse-guide/data-warehouse-concepts-tra
ditional-vs-cloud/

22

Anda mungkin juga menyukai