Reading+2+-+Data+Management en Id

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.
com
Pengantar Cloud Computing untuk Ilmuwan Data
Ada banyak perdebatan tentang apa itu cloud. Banyak orang menganggap
cloud sebagai kumpulan teknologi. Memang benar bahwa ada seperangkat
teknologi umum yang biasanya membentuk lingkungan cloud, tetapi teknologi
ini bukanlah inti dari cloud. Cloud sebenarnya adalah layanan atau grup
layanan. Ini sebagian alasan mengapa cloud sangat sulit untuk didefinisikan.
Definisi Komputasi Awan

Komputasi awan adalah pengiriman layanan teknologi-termasuk komputasi,
penyimpanan, database, jaringan, perangkat lunak, dan banyak lagi-melalui internet
dengan harga bayar sesuai pemakaian.
Komputasi awan terutama memungkinkan perusahaan untuk menyebarkan
aplikasi mereka lebih cepat, tanpa perlu pemeliharaan yang berlebihan, yang
dikelola oleh penyedia layanan. Ini juga mengarah pada penggunaan sumber daya
komputasi yang lebih baik, sesuai kebutuhan dan persyaratan bisnis dari waktu ke
waktu.
Pentingnya layanan data cloud dan cloud
1
Permintaan cloud telah meningkat selama periode waktu tertentu dan juga dalam lima tahun
terakhir, pergeseran dalam penawaran Vendor Cloud telah secara mendasar mengubah cara
perusahaan membeli, menyebarkan, dan menjalankan sistem data besar. Vendor Cloud telah
menyerap lebih banyak penyimpanan data dan teknologi transformasi back-end ke dalam
penawaran inti mereka dan sekarang menyoroti saluran data, analisis, dan alat pemodelan
mereka. Ini adalah berita bagus bagi perusahaan yang menerapkan, memigrasi, atau
meningkatkan sistem data besar. Perusahaan sekarang dapat fokus untuk menghasilkan nilai
dari data dan Machine Learning (ML), daripada membangun tim untuk mendukung perangkat
keras, infrastruktur, dan penerapan/pemantauan aplikasi.
Mengapa Ilmuwan Data dan Insinyur Data Perlu Memahami Cloud dan
layanan datanya?
Semakin banyak beban kerja aplikasi yang berpindah ke platform cloud yang berbeda. Ini
bisa berupa perpindahan ke cloud publik, privat, atau hybrid (di mana yang terakhir adalah
campuran publik dan privat). Beban kerja aplikasi big data dan analitik juga sedang
bergerak. Komunitas teknik ilmu data harus memiliki pemahaman yang baik tentang cloud
ini pada tingkat yang lebih dalam sehingga dapat memanfaatkannya sebaik mungkin untuk
melakukan pekerjaan analitik mereka secara lebih efektif.
Ilmuwan data dan insinyur data telah terbiasa menjalankan pekerjaan pemrosesan
dan analisis data mereka pada lingkungan fisik atau logam kosong hingga
2
sekarang. Tetapi dengan pertumbuhan pesat dalam infrastruktur cloud baru-baru ini, orang-orang
ini perlu memahami infrastruktur virtual baru di dalam cloud mereka, karena sekarang mendasari
dan mengendalikan beban kerja mereka.
Meskipun Internet penuh dengan istilah-istilah yang terkait dengan cloud, berikut adalah
beberapa istilah yang cukup mendasar, tetapi penting, yang harus diketahui oleh
seseorang. Mengetahui istilah-istilah kunci ini akan membantu Anda memahami
perkembangan industri dan tren masa depan dalam komputasi awan.
Mari kita lihat dan pahami dasar-dasarnya. 1.

XaaS (Apa pun sebagai Layanan)
Ini adalah istilah umum yang mengacu pada layanan apa pun yang tersedia
sebagai layanan berkemampuan cloud melalui internet. Kadang juga disebut
'semuanya sebagai layanan'. Ini termasuk SaaS, DaaS, PaaS dan IaaS dll.
2. Perangkat Lunak sebagai Layanan (SaaS)
SaaS terdiri dari aplikasi perangkat lunak, yang dijalankan pada komputer yang
terletak jauh yang kebetulan dimiliki, serta dioperasikan oleh orang lain. Baik
3
contoh aplikasi semacam itu adalah Google Docs, yang merupakan pengolah kata
online berdasarkan lingkungan cloud.
SaaS menawarkan beberapa manfaat utama, seperti akses instan dan penggunaan
aplikasi, aksesibilitas dari mesin apa pun yang terhubung, dan juga tidak ada
kemungkinan kehilangan data, karena disimpan di cloud.
3. Platform sebagai Layanan (PaaS)
PaaS terutama merupakan lingkungan berbasis cloud yang menawarkan semua yang
diperlukan untuk mendukung pembangunan dan penyebaran aplikasi berbasis cloud.
Ini dimungkinkan tanpa pengembang aplikasi harus membeli perangkat keras,
perangkat lunak, manajemen, dan bahkan hosting.
Manfaat utama yang diperoleh dari PaaS adalah aplikasi dapat disebarkan dengan sangat cepat,
tanpa mengkhawatirkan platform. Selain itu, model layanan ini sebagian besar menghemat
biaya dan mengabstraksi seluk-beluk yang mendasarinya.
4. Infrastruktur sebagai Layanan (IaaS)
Infrastructure as a Service, atau IaaS, menyediakan layanan infrastruktur dasar kepada
pelanggan. Layanan ini dapat mencakup mesin fisik, mesin virtual, jaringan, penyimpanan, atau
kombinasi dari semuanya. Anda kemudian dapat membangun apa pun yang Anda butuhkan di
atas infrastruktur yang dikelola. Implementasi IaaS digunakan untuk menggantikan pusat data
yang dikelola secara internal. Mereka memungkinkan organisasi lebih fleksibel tetapi dengan
biaya yang lebih rendah.
Mari kita mengambil Analogi Mobil untuk memahami model layanan cloud.
4
Memahami model layanan cloud menggunakan analogi mobil
Bandingkan gambar di atas dengan yang di bawah ini untuk pemahaman yang lebih baik
5. Awan Publik
Ketika kebanyakan orang berpikir tentang komputasi awan, mereka memikirkan model
layanan awan publik. Dalam model layanan publik, semua sistem dan sumber daya yang
menyediakan layanan ditempatkan di penyedia layanan eksternal. Penyedia layanan
tersebut bertanggung jawab atas pengelolaan dan administrasi sistem yang digunakan
untuk menyediakan layanan. Klien hanya bertanggung jawab atas apa pun
5
perangkat lunak atau aplikasi klien yang diinstal pada sistem pengguna akhir.
Koneksi ke penyedia cloud publik biasanya dilakukan melalui Internet.
6. Awan Pribadi
Di cloud pribadi, sistem dan sumber daya yang menyediakan layanan berada di
dalam perusahaan atau organisasi yang menggunakannya. Organisasi tersebut
bertanggung jawab atas manajemen dan administrasi sistem yang digunakan
untuk menyediakan layanan. Selain itu, organisasi juga bertanggung jawab atas
perangkat lunak atau aplikasi klien yang diinstal pada sistem pengguna akhir.
Private cloud biasanya diakses melalui LAN lokal atau wide area network (WAN).
Dalam kasus pengguna jarak jauh, akses umumnya akan diberikan melalui
Internet atau kadang-kadang melalui penggunaan jaringan pribadi virtual (VPN).
7. Awan Hibrida
Istilah cloud hybrid menyiratkan penggunaan infrastruktur cloud pribadi, bersama dengan
penggunaan layanan cloud yang bersifat publik. Sejujurnya, private cloud tidak bisa benar-
benar ada dengan sendirinya. Sebagian besar bisnis, yang memiliki pengaturan cloud
pribadi, akhirnya mengakses sumber daya cloud publik untuk berbagai tugas sehari-hari.
Hal ini melahirkan istilah hybrid cloud.
Kekuatan awan
● Layanan Cloud
sebuah. Hitung: berikan otak untuk memproses beban kerja Anda
b. Penyimpanan: simpan dan simpan data
6
c. Basis data: simpan kumpulan data yang lebih terstruktur
● Karakteristik Komputasi Awan :

sebuah. Virtualisasi: Teknologi dasar yang mendukung
komputasi awan.
Virtualisasi adalah inti dari semua lingkungan cloud modern — ini adalah
infrastruktur cloud yang ditunjukkan di bawah ini. Unit yang memberikan
fleksibilitas, elastisitas, kemudahan pengelolaan, dan penskalaan di cloud
apa pun adalah mesin virtual — pada dasarnya melalui independensi
perangkat keras dan portabilitas yang ditawarkan mesin virtual.
b. Biaya:
saya. Hanya bayar sumber daya saat Anda menggunakannya
ii. Bayar sesuai yang anda pakai
aku aku aku. Tanpa biaya modal : Membeli hardware dan software
iv. Mengelola infrastruktur di tempat

Dalam beberapa kasus, solusi non-premis mungkin lebih hemat biaya.
Solusi terbaik tergantung pada kasus penggunaan.
c. Keandalan: Membangun keandalan ke lingkungan Anda bisa sangat mahal.
Biasanya melibatkan memiliki beberapa sistem atau bahkan beberapa lokasi
pusat data. Anda harus melakukan pemulihan bencana (DR) dan perencanaan
dan simulasi kontinuitas. Banyak penyedia cloud sudah menyiapkan beberapa
lokasi, jadi jika Anda menggunakan layanan mereka, Anda dapat langsung
menambahkan keandalan ke lingkungan Anda. Anda mungkin harus meminta
agar layanan Anda menggunakan beberapa lokasi, tetapi setidaknya itu adalah
pilihan.
d. Kecepatan:
saya. Akses langsung ke sumber daya cloud yang siap digunakan.
ii. Sumber daya sesuai permintaan.
7
aku aku aku. Waktu penyetelan cepat.
iv. Menyebarkan layanan dalam hitungan menit
e. Performa: Performa dalam sistem cloud terus diukur dan dipantau.

Jika kinerja turun di bawah tingkat tertentu, sistem dapat secara
otomatis menyesuaikan untuk menyediakan lebih banyak
kapasitas, jika itu yang diperlukan. Kehadiran perjanjian tingkat
layanan (SLA) juga menguntungkan. SLA menjamin tingkat kinerja
tertentu. Jika tingkat itu tidak terpenuhi, penyedia layanan
umumnya harus memenuhi beberapa tingkat restitusi. Restitusi ini
seringkali dalam bentuk tolak bayar atau pengurangan biaya. Jadi,
meskipun kinerja itu sendiri tidak terjamin, ada jaminan bahwa
biaya dari kurangnya kinerja dapat dikurangi.
f. Skalabilitas: Tambahkan dan hapus sumber daya dengan mudah sesuai kebutuhan. Contoh:
situs e-commerce. Membutuhkan lebih banyak sumber daya selama waktu puncak. Skala
sumber daya sesuai kebutuhan
g. Kelincahan: Lingkungan cloud dapat menawarkan kelincahan yang luar biasa. Anda dapat
dengan mudah kembali sumber daya yang sesuai bila diperlukan. Ini memungkinkan
Anda untuk menambahkan sumber daya ke sistem yang membutuhkannya dan
mengambilnya dari sistem yang tidak membutuhkannya. Anda juga dapat dengan mudah
menambahkan sistem untuk memperluas kapasitas Anda. Lingkungan cloud internal
memungkinkan Anda memanfaatkan sumber daya infrastruktur internal dengan lebih
baik. Infrastruktur cloud yang menggunakan virtualisasi dapat membantu Anda
meningkatkan kepadatan dan persentase pemanfaatan dari infrastruktur Anda.
Akibatnya, Anda akan cenderung tidak memiliki sistem yang menganggur.
h. Keamanan:
saya. Penyimpanan dan pengelolaan data Anda yang aman.
ii. Pihak eksternal yang bertanggung jawab atas keamanan.
8
aku aku aku. Terutama berisiko untuk bisnis di sektor yang sangat diatur.
iv. Cloud menjadi lebih dan lebih aman.

Dalam beberapa kasus, solusi non-premis mungkin lebih disukai. Solusi terbaik
tergantung pada kasus penggunaan.
Pengantar Ekosistem Hadoop untuk Big Data dan

Rekayasa Data
Kami memiliki lebih dari 4 miliar pengguna di Internet saat ini. Dalam istilah data murni, inilah
tampilan gambarnya:
9.176 Tweet per detik

1.023 gambar Instagram diunggah per detik
5.036 panggilan Skype per detik
86.497 penelusuran Google per detik

86.302 video YouTube ditonton per detik
2.957.983 Email terkirim per detik
dan banyak lagi…

Itulah jumlah data yang kami tangani saat ini – luar biasa! Diperkirakan
pada akhir tahun 2020 kami telah menghasilkan 44 zettabytes data. Itu
44*10̂ 21!
Sejumlah besar data yang dihasilkan dengan kecepatan yang ganas dan dalam semua jenis format
inilah yang kita sebut hari ini sebagai Big data. Tetapi tidak mungkin menyimpan data ini pada sistem
tradisional yang telah kami gunakan selama lebih dari 40 tahun. Untuk menangani data yang sangat
besar ini, kita memerlukan kerangka kerja yang jauh lebih kompleks yang tidak hanya terdiri dari
satu, tetapi beberapa komponen yang menangani operasi yang berbeda.
9
Kami menyebut kerangka ini sebagai Hadoop dan bersama dengan semua komponennya,
kami menyebutnya Ekosistem Hadoop. Tetapi karena ada begitu banyak komponen dalam
ekosistem Hadoop ini, terkadang menjadi sangat menantang untuk benar-benar
memahami dan mengingat apa yang dilakukan setiap komponen dan di mana tempatnya
di dunia yang besar ini.
Masalah dengan Sistem Tradisional

Dengan sistem tradisional, itu berarti sistem seperti Database Relasional dan Gudang Data.
Organisasi telah menggunakannya selama 40 tahun terakhir untuk menyimpan dan
menganalisis data mereka. Tetapi data yang dihasilkan hari ini tidak dapat ditangani oleh
database ini karena alasan berikut:
● Sebagian besar data yang dihasilkan saat ini semi-terstruktur atau tidak terstruktur. Tetapi
sistem tradisional telah dirancang untuk hanya menangani data terstruktur yang memiliki
baris dan kolom yang dirancang dengan baik.
● Database Hubungan dapat diskalakan secara vertikal yang berarti Anda perlu
menambahkan lebih banyak pemrosesan, memori, penyimpanan ke sistem yang sama.
Ini bisa menjadi sangat mahal.
● Data yang disimpan saat ini berada dalam silo yang berbeda. Menyatukan mereka dan
menganalisisnya untuk pola bisa menjadi tugas yang sangat sulit.
Jadi, bagaimana kita menangani Big Data? Di sinilah Hadoop masuk!
10
Apa itu Hadoop?
Orang-orang di Google juga menghadapi tantangan yang disebutkan di atas ketika mereka
ingin memberi peringkat halaman di Internet. Mereka menemukan bahwa Database Relasional
sangat mahal dan tidak fleksibel. Jadi, mereka datang dengan solusi baru mereka sendiri.
Mereka menciptakan Google File System (GFS).
GFS adalah sistem file terdistribusi yang mengatasi kelemahan sistem tradisional.
Ini berjalan pada perangkat keras yang murah dan menyediakan paralelisasi,
skalabilitas, dan keandalan. Ini meletakkan batu loncatan untuk evolusi Apache
Hadoop.
Apache Hadoop adalah kerangka kerja sumber terbuka berdasarkan sistem file Google
yang dapat menangani data besar dalam lingkungan terdistribusi. Lingkungan
terdistribusi ini dibangun dari sekelompok mesin yang bekerja sama secara erat untuk
memberikan kesan bahwa satu mesin bekerja.
Berikut adalah beberapa sifat penting Hadoop yang harus Anda ketahui:
● Hadoop sangat skalabel karena menangani data secara terdistribusi.

● Dibandingkan dengan penskalaan vertikal di RDBMS, Hadoop menawarkan penskalaan horizontal.
● Itu membuat dan menyimpan replika data sehingga toleran terhadap kesalahan.
● Ini ekonomis karena semua node dalam cluster adalah perangkat keras
komoditas yang tidak lain adalah mesin murah.
● Hadoop menggunakan konsep lokalitas data untuk memproses data pada node di
mana mereka disimpan daripada memindahkan data melalui jaringan sehingga
mengurangi lalu lintas.
● Itu dapat menangani semua jenis data: terstruktur, semi-terstruktur, dan tidak
terstruktur. Ini sangat penting di zaman sekarang karena sebagian besar data kami
(email, Instagram, Twitter, perangkat IoT, dll.) tidak memiliki format yang
ditentukan.
11
Sekarang, mari kita lihat komponen ekosistem Hadoop.
Komponen Ekosistem Hadoop
Di bagian ini, kita akan membahas berbagai komponen ekosistem Hadoop.
HDFS (Sistem File Terdistribusi Hadoop)
Ini adalah komponen penyimpanan Hadoop yang menyimpan data dalam bentuk file.
Setiap file dibagi menjadi blok 128MB (dapat dikonfigurasi) dan menyimpannya di
mesin yang berbeda di cluster. Ini memiliki arsitektur master-slave dengan dua
12
komponen utama: Node Nama dan Node Data.
● Node nama adalah node master dan hanya ada satu per cluster. Tugasnya
adalah untuk mengetahui di mana setiap blok milik file berada di cluster
● Data node adalah node slave yang menyimpan blok data dan terdapat
lebih dari satu per cluster. Tugasnya adalah mengambil data saat dan
saat diperlukan. Itu terus berhubungan dengan node Nama melalui detak
jantung
PetaKurangi
Untuk menangani Big Data, Hadoop mengandalkan algoritma MapReduce yang diperkenalkan oleh
Google dan memudahkan untuk mendistribusikan pekerjaan dan menjalankannya secara paralel dalam
sebuah cluster. Ini pada dasarnya membagi satu tugas menjadi beberapa tugas dan memprosesnya di
mesin yang berbeda.
Dalam istilah awam, ia bekerja dengan cara membagi-dan-menaklukkan dan

menjalankan proses pada mesin untuk mengurangi lalu lintas di jaringan. Ini memiliki
dua fase penting: Map dan Reduce.
Filter fase peta, grup, dan sortir data. Data input dibagi menjadi beberapa bagian.
Setiap tugas peta bekerja pada pemisahan data secara paralel pada mesin yang
berbeda dan menghasilkan pasangan nilai kunci. Output dari fase ini ditindaklanjuti
oleh tugas pengurangan dan dikenal sebagai fase Reduce. Ini mengumpulkan data,
merangkum hasilnya, dan menyimpannya di HDFS.
13
BENANG
BENANG atau Negosiator Sumber Daya Lain mengelola sumber daya di cluster dan mengelola
aplikasi melalui Hadoop. Ini memungkinkan data yang disimpan dalam HDFS untuk diproses
dan dijalankan oleh berbagai mesin pemrosesan data seperti pemrosesan batch, pemrosesan
aliran, pemrosesan interaktif, pemrosesan grafik, dan banyak lagi. Hal ini meningkatkan
efisiensi dengan penggunaan BENANG.
HBase
HBase adalah database NoSQL berbasis Kolom. Ini berjalan di atas HDFS dan dapat
menangani semua jenis data. Ini memungkinkan pemrosesan waktu nyata dan
operasi baca/tulis acak dilakukan dalam data.
Babi
14
Pig dikembangkan untuk menganalisis kumpulan data besar dan mengatasi kesulitan
untuk menulis peta dan mengurangi fungsi. Ini terdiri dari dua komponen: Pig Latin dan
Pig Engine.
Pig Latin adalah Bahasa Scripting yang mirip dengan SQL. Pig Engine adalah mesin
eksekusi yang dijalankan oleh Pig Latin. Secara internal, kode yang ditulis dalam Pig
diubah menjadi fungsi MapReduce dan membuatnya sangat mudah bagi programmer
yang tidak mahir dalam Java.
Sarang lebah
Hive adalah sistem gudang data terdistribusi yang dikembangkan oleh Facebook. Ini memungkinkan
untuk membaca, menulis, dan mengelola file dengan mudah di HDFS. Ia memiliki bahasa query
sendiri untuk tujuan yang dikenal sebagai Hive Querying Language (HQL) yang sangat mirip dengan
SQL. Ini membuatnya sangat mudah bagi programmer untuk menulis fungsi MapReduce
menggunakan kueri HQL sederhana.
Skup
Banyak aplikasi masih menyimpan data dalam database relasional, sehingga menjadikannya
sumber data yang sangat penting. Oleh karena itu, Sqoop memainkan peran penting dalam
15
membawa data dari Database Relasional ke HDFS.
Perintah yang ditulis dalam Sqoop secara internal diubah menjadi tugas MapReduce yang
dijalankan melalui HDFS. Ia bekerja dengan hampir semua database relasional seperti MySQL,
Postgres, SQLite, dll. Ini juga dapat digunakan untuk mengekspor data dari HDFS ke RDBMS.
Saluran
Flume adalah layanan sumber terbuka, andal, dan tersedia yang digunakan untuk mengumpulkan,
mengagregasi, dan memindahkan data dalam jumlah besar secara efisien dari berbagai sumber data ke
HDFS. Itu dapat mengumpulkan data secara real-time serta dalam mode batch. Ini memiliki arsitektur yang
fleksibel dan toleran terhadap kesalahan dengan beberapa mekanisme pemulihan.
Kafka
Ada banyak aplikasi yang menghasilkan data dan sejumlah aplikasi yang menggunakan
data tersebut. Tetapi menghubungkan mereka secara individual adalah tugas yang
sulit. Di situlah Kafka masuk. Ia berada di antara aplikasi yang menghasilkan data
(Produsen) dan aplikasi yang menggunakan data (Konsumen).
Kafka didistribusikan dan memiliki partisi, replikasi, dan toleransi kesalahan bawaan.
16
Itu dapat menangani data streaming dan juga memungkinkan bisnis untuk menganalisis data secara real-
time.
Oozie
Oozie adalah sistem penjadwal alur kerja yang memungkinkan pengguna untuk menautkan pekerjaan yang
ditulis di berbagai platform seperti MapReduce, Hive, Pig, dll. Dengan menggunakan Oozie, Anda dapat
menjadwalkan pekerjaan terlebih dahulu dan dapat membuat saluran pekerjaan individu untuk dieksekusi
secara berurutan atau paralel dengan mencapai tugas yang lebih besar. Misalnya, Anda dapat menggunakan
Oozie untuk melakukan operasi ETL pada data dan kemudian menyimpan output dalam HDFS.
Penjaga kebun binatang
Dalam cluster Hadoop, mengoordinasikan dan menyinkronkan node bisa menjadi tugas yang menantang. Oleh
karena itu, Zookeeper adalah alat yang sempurna untuk masalah tersebut.
Ini adalah layanan open-source, terdistribusi, dan terpusat untuk memelihara

informasi konfigurasi, penamaan, menyediakan sinkronisasi terdistribusi, dan
menyediakan layanan grup di seluruh cluster.
17
Percikan
Spark adalah kerangka kerja alternatif untuk Hadoop yang dibangun di atas Scala tetapi mendukung
beragam aplikasi yang ditulis dalam Java, Python, dll. Dibandingkan dengan MapReduce, Spark
menyediakan pemrosesan dalam memori yang menghasilkan pemrosesan lebih cepat. Selain
pemrosesan batch yang ditawarkan oleh Hadoop, ia juga dapat menangani pemrosesan waktu nyata.
Selanjutnya, Spark memiliki ekosistemnya sendiri:
● Inti Percikanadalah mesin eksekusi utama untuk Spark dan API lain yang dibangun di
atasnya
● Spark SQL APImemungkinkan untuk menanyakan data terstruktur yang disimpan
dalam tabel DataFrames atau Hive
● Streaming APImemungkinkan Spark untuk menangani data real-time. Itu dapat dengan
mudah diintegrasikan dengan berbagai sumber data seperti Flume, Kafka, dan Twitter
18
● MLlibadalah perpustakaan pembelajaran mesin yang dapat diskalakan yang
memungkinkan Anda melakukan tugas ilmu data sambil memanfaatkan properti Spark
secara bersamaan
● GrafikXadalah mesin komputasi grafik yang memungkinkan pengguna untuk secara interaktif
membangun, mengubah, dan menalar tentang data terstruktur grafik dalam skala besar dan
dilengkapi dengan perpustakaan algoritme umum
Tahapan Pemrosesan Big Data

Dengan begitu banyak komponen dalam ekosistem Hadoop, bisa menjadi sangat menakutkan dan
sulit untuk memahami apa yang dilakukan masing-masing komponen. Oleh karena itu, lebih mudah
untuk mengelompokkan beberapa komponen bersama berdasarkan di mana mereka berada dalam
tahap pemrosesan Big Data.
● Flume, Kafka, dan Sqoop digunakan untuk menyerap data dari sumber eksternal
ke HDFS
● HDFS adalah unit penyimpanan Hadoop. Bahkan data yang diimpor dari Hbase
disimpan melalui HDFS
● MapReduce dan Spark digunakan untuk memproses data pada HDFS dan
melakukan berbagai tugas
19
● Pig, Hive, dan Spark digunakan untuk menganalisis data
● Oozie membantu menjadwalkan tugas. Karena berfungsi dengan berbagai platform, ini
digunakan di seluruh tahapan
● Zookeeper menyinkronkan node cluster dan digunakan di seluruh

tahapan juga
Perbedaan Antara Big Data dan Gudang Data
Data besar: Big Data pada dasarnya mengacu pada data yang bervolume besar dan
memiliki kumpulan data yang kompleks. Data dalam jumlah besar ini dapat terstruktur,
semi-terstruktur, atau tidak terstruktur dan tidak dapat diproses oleh perangkat lunak dan
database pengolah data tradisional. Berbagai operasi seperti analisis, manipulasi,
perubahan, dll dilakukan pada data dan kemudian digunakan oleh perusahaan untuk
pengambilan keputusan yang cerdas. Big data adalah aset yang sangat kuat di dunia saat
ini. Data besar juga dapat digunakan untuk mengatasi masalah bisnis dengan menyediakan
pengambilan keputusan yang cerdas.
Gudang data: Data Warehouse pada dasarnya adalah kumpulan data dari berbagai
sumber yang heterogen. Ini adalah komponen utama dari sistem intelijen bisnis di
mana analisis dan pengelolaan data dilakukan yang selanjutnya digunakan untuk
meningkatkan pengambilan keputusan. Ini melibatkan proses ekstraksi, pemuatan,
dan transformasi untuk menyediakan data untuk analisis. Gudang data juga
digunakan untuk melakukan kueri pada sejumlah besar data. Ini menggunakan
data dari berbagai database relasional dan file log aplikasi.
Di bawah ini adalah tabel perbedaan antara Big Data dan Data Warehouse:
Tidak. Data besar Gudang data
1. Data besar adalah data dalam Data warehouse adalah kumpulan

bentuk yang sangat besar yang data historis dari berbagai
20
teknologi dapat diterapkan. operasi dalam suatu perusahaan.
2. Big data adalah teknologi untuk Data warehouse adalah arsitektur yang
menyimpan dan mengelola data dalam digunakan untuk mengatur data.
jumlah besar.
3. Dibutuhkan terstruktur, Hanya membutuhkan data terstruktur sebagai
tidak terstruktur atau input.
data semi terstruktur sebagai input.
4. Big data melakukan pemrosesan dengan Gudang data tidak menggunakan

menggunakan sistem file terdistribusi. sistem file terdistribusi untuk
pemrosesan.
5. Data besar tidak mengikuti kueri SQL Di gudang data kami menggunakan
apa pun untuk mengambil data dari kueri SQL untuk mengambil data dari
database. database relasional.
6. Apache Hadoop dapat digunakan Data warehouse tidak dapat digunakan

untuk menangani sejumlah besar untuk menangani sejumlah besar data.
data.
7. Ketika data baru ditambahkan, Ketika data baru ditambahkan,

perubahan data disimpan dalam perubahan data tidak secara langsung
bentuk file yang: berdampak pada gudang data.
diwakili oleh sebuah tabel.
8. Big data tidak memerlukan teknik Gudang data membutuhkan teknik

manajemen yang efisien dibandingkan manajemen yang lebih efisien
dengan data warehouse. karena data dikumpulkan dari
berbagai departemen perusahaan.
Sumber Bahan:
https://www.analyticsvidhya.com/blog/2020/10/introduction-hadoop-e
cosystem/
21
https://medium.com/analytics-vidhya/an-intro-to-cloud-computing-for
- ilmuwan-data-dan-insinyur-data-96d85b4852de
https://www.geeksforgeeks.org/difference-between-big-data-and-data
- gudang/
Sumber Bacaan Lainnya:

https://www.techopedia.com/definition/1825/distributed-file-system-df
s#:~:text=A%20distributed%20file%20system%20
https://aws.amazon.com/big-data/what-is-hive/
https://www.tutorialspoint.com/impala/impala_overview.htm
https://www.Oracle.com/database/what-is-a-data-warehouse/
https://www.analyticsvidhya.com/blog/2021/07/a-brief-introduction-to
- gudang data/#:~:text=A%20data%20warehouse%20is%20terutama,
besar%20jumlah%20dari%20historis%20data .
https://apprenda.com/library/cloud/introduction-to-cloud-computing/
# :~:text=Cloud%20computing%20terdiri%20dari%20tiga,sebagai%20a%20
layanan%20sampai%20pelanggan .
https://dataprivacymanager.net/security-vs-privacy/
https://panoply.io/data-warehouse-guide/data-warehouse-concepts-tra
ditional-vs-cloud/
22

Reading+2+-+Data+Management en Id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Reading+2+-+Data+Management en Id

Diunggah oleh

Hak Cipta:

Format Tersedia

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

Definisi Komputasi Awan

keras, infrastruktur, dan penerapan/pemantauan aplikasi.

melakukan pekerjaan analitik mereka secara lebih efektif.

dan mengendalikan beban kerja mereka.

seseorang. Mengetahui istilah-istilah kunci ini akan membantu Anda memahami

perkembangan industri dan tren masa depan dalam komputasi awan.

Mari kita lihat dan pahami dasar-dasarnya. 1.

biaya dan mengabstraksi seluk-beluk yang mendasarinya.

4. Infrastruktur sebagai Layanan (IaaS)

Infrastructure as a Service, atau IaaS, menyediakan layanan infrastruktur dasar kepada

biaya yang lebih rendah.

menyediakan layanan ditempatkan di penyedia layanan eksternal. Penyedia layanan

Hal ini melahirkan istilah hybrid cloud.

b. Penyimpanan: simpan dan simpan data

● Karakteristik Komputasi Awan :

infrastruktur cloud yang ditunjukkan di bawah ini. Unit yang memberikan

fleksibilitas, elastisitas, kemudahan pengelolaan, dan penskalaan di cloud

apa pun adalah mesin virtual — pada dasarnya melalui independensi

perangkat keras dan portabilitas yang ditawarkan mesin virtual.

ii. Bayar sesuai yang anda pakai

iv. Mengelola infrastruktur di tempat

c. Keandalan: Membangun keandalan ke lingkungan Anda bisa sangat mahal.

Biasanya melibatkan memiliki beberapa sistem atau bahkan beberapa lokasi

dan simulasi kontinuitas. Banyak penyedia cloud sudah menyiapkan beberapa

menambahkan keandalan ke lingkungan Anda. Anda mungkin harus meminta

saya. Akses langsung ke sumber daya cloud yang siap digunakan.

ii. Sumber daya sesuai permintaan.

iv. Menyebarkan layanan dalam hitungan menit

e. Performa: Performa dalam sistem cloud terus diukur dan dipantau.

sumber daya sesuai kebutuhan

Anda untuk menambahkan sumber daya ke sistem yang membutuhkannya dan

menambahkan sistem untuk memperluas kapasitas Anda. Lingkungan cloud internal

memungkinkan Anda memanfaatkan sumber daya infrastruktur internal dengan lebih

baik. Infrastruktur cloud yang menggunakan virtualisasi dapat membantu Anda

meningkatkan kepadatan dan persentase pemanfaatan dari infrastruktur Anda.

Akibatnya, Anda akan cenderung tidak memiliki sistem yang menganggur.

saya. Penyimpanan dan pengelolaan data Anda yang aman.

ii. Pihak eksternal yang bertanggung jawab atas keamanan.

iv. Cloud menjadi lebih dan lebih aman.

tergantung pada kasus penggunaan.

Pengantar Ekosistem Hadoop untuk Big Data dan

9.176 Tweet per detik

86.497 penelusuran Google per detik

dan banyak lagi…

satu, tetapi beberapa komponen yang menangani operasi yang berbeda.

ekosistem Hadoop ini, terkadang menjadi sangat menantang untuk benar-benar

di dunia yang besar ini.

Masalah dengan Sistem Tradisional

Organisasi telah menggunakannya selama 40 tahun terakhir untuk menyimpan dan

database ini karena alasan berikut:

baris dan kolom yang dirancang dengan baik.

menambahkan lebih banyak pemrosesan, memori, penyimpanan ke sistem yang sama.

Ini bisa menjadi sangat mahal.

menganalisisnya untuk pola bisa menjadi tugas yang sangat sulit.

Jadi, bagaimana kita menangani Big Data? Di sinilah Hadoop masuk!

Mereka menciptakan Google File System (GFS).

● Hadoop sangat skalabel karena menangani data secara terdistribusi.

mana mereka disimpan daripada memindahkan data melalui jaringan sehingga

mengurangi lalu lintas.

Komponen Ekosistem Hadoop

Di bagian ini, kita akan membahas berbagai komponen ekosistem Hadoop.

HDFS (Sistem File Terdistribusi Hadoop)