Reading+2+-+Data+Management en Id
Reading+2+-+Data+Management en Id
com
Pengantar Cloud Computing untuk Ilmuwan Data
Ada banyak perdebatan tentang apa itu cloud. Banyak orang menganggap
cloud sebagai kumpulan teknologi. Memang benar bahwa ada seperangkat
teknologi umum yang biasanya membentuk lingkungan cloud, tetapi teknologi
ini bukanlah inti dari cloud. Cloud sebenarnya adalah layanan atau grup
layanan. Ini sebagian alasan mengapa cloud sangat sulit untuk didefinisikan.
1
Permintaan cloud telah meningkat selama periode waktu tertentu dan juga dalam lima tahun
terakhir, pergeseran dalam penawaran Vendor Cloud telah secara mendasar mengubah cara
perusahaan membeli, menyebarkan, dan menjalankan sistem data besar. Vendor Cloud telah
menyerap lebih banyak penyimpanan data dan teknologi transformasi back-end ke dalam
penawaran inti mereka dan sekarang menyoroti saluran data, analisis, dan alat pemodelan
mereka. Ini adalah berita bagus bagi perusahaan yang menerapkan, memigrasi, atau
meningkatkan sistem data besar. Perusahaan sekarang dapat fokus untuk menghasilkan nilai
dari data dan Machine Learning (ML), daripada membangun tim untuk mendukung perangkat
Mengapa Ilmuwan Data dan Insinyur Data Perlu Memahami Cloud dan
layanan datanya?
Semakin banyak beban kerja aplikasi yang berpindah ke platform cloud yang berbeda. Ini
bisa berupa perpindahan ke cloud publik, privat, atau hybrid (di mana yang terakhir adalah
campuran publik dan privat). Beban kerja aplikasi big data dan analitik juga sedang
bergerak. Komunitas teknik ilmu data harus memiliki pemahaman yang baik tentang cloud
ini pada tingkat yang lebih dalam sehingga dapat memanfaatkannya sebaik mungkin untuk
Ilmuwan data dan insinyur data telah terbiasa menjalankan pekerjaan pemrosesan
dan analisis data mereka pada lingkungan fisik atau logam kosong hingga
2
sekarang. Tetapi dengan pertumbuhan pesat dalam infrastruktur cloud baru-baru ini, orang-orang
ini perlu memahami infrastruktur virtual baru di dalam cloud mereka, karena sekarang mendasari
Meskipun Internet penuh dengan istilah-istilah yang terkait dengan cloud, berikut adalah
beberapa istilah yang cukup mendasar, tetapi penting, yang harus diketahui oleh
SaaS terdiri dari aplikasi perangkat lunak, yang dijalankan pada komputer yang
terletak jauh yang kebetulan dimiliki, serta dioperasikan oleh orang lain. Baik
3
contoh aplikasi semacam itu adalah Google Docs, yang merupakan pengolah kata
online berdasarkan lingkungan cloud.
SaaS menawarkan beberapa manfaat utama, seperti akses instan dan penggunaan
aplikasi, aksesibilitas dari mesin apa pun yang terhubung, dan juga tidak ada
kemungkinan kehilangan data, karena disimpan di cloud.
3. Platform sebagai Layanan (PaaS)
PaaS terutama merupakan lingkungan berbasis cloud yang menawarkan semua yang
diperlukan untuk mendukung pembangunan dan penyebaran aplikasi berbasis cloud.
Ini dimungkinkan tanpa pengembang aplikasi harus membeli perangkat keras,
perangkat lunak, manajemen, dan bahkan hosting.
Manfaat utama yang diperoleh dari PaaS adalah aplikasi dapat disebarkan dengan sangat cepat,
tanpa mengkhawatirkan platform. Selain itu, model layanan ini sebagian besar menghemat
pelanggan. Layanan ini dapat mencakup mesin fisik, mesin virtual, jaringan, penyimpanan, atau
kombinasi dari semuanya. Anda kemudian dapat membangun apa pun yang Anda butuhkan di
atas infrastruktur yang dikelola. Implementasi IaaS digunakan untuk menggantikan pusat data
yang dikelola secara internal. Mereka memungkinkan organisasi lebih fleksibel tetapi dengan
Mari kita mengambil Analogi Mobil untuk memahami model layanan cloud.
4
Memahami model layanan cloud menggunakan analogi mobil
Bandingkan gambar di atas dengan yang di bawah ini untuk pemahaman yang lebih baik
5. Awan Publik
Ketika kebanyakan orang berpikir tentang komputasi awan, mereka memikirkan model
layanan awan publik. Dalam model layanan publik, semua sistem dan sumber daya yang
tersebut bertanggung jawab atas pengelolaan dan administrasi sistem yang digunakan
untuk menyediakan layanan. Klien hanya bertanggung jawab atas apa pun
5
perangkat lunak atau aplikasi klien yang diinstal pada sistem pengguna akhir.
Koneksi ke penyedia cloud publik biasanya dilakukan melalui Internet.
6. Awan Pribadi
Di cloud pribadi, sistem dan sumber daya yang menyediakan layanan berada di
dalam perusahaan atau organisasi yang menggunakannya. Organisasi tersebut
bertanggung jawab atas manajemen dan administrasi sistem yang digunakan
untuk menyediakan layanan. Selain itu, organisasi juga bertanggung jawab atas
perangkat lunak atau aplikasi klien yang diinstal pada sistem pengguna akhir.
Private cloud biasanya diakses melalui LAN lokal atau wide area network (WAN).
Dalam kasus pengguna jarak jauh, akses umumnya akan diberikan melalui
Internet atau kadang-kadang melalui penggunaan jaringan pribadi virtual (VPN).
7. Awan Hibrida
Istilah cloud hybrid menyiratkan penggunaan infrastruktur cloud pribadi, bersama dengan
penggunaan layanan cloud yang bersifat publik. Sejujurnya, private cloud tidak bisa benar-
benar ada dengan sendirinya. Sebagian besar bisnis, yang memiliki pengaturan cloud
pribadi, akhirnya mengakses sumber daya cloud publik untuk berbagai tugas sehari-hari.
Kekuatan awan
● Layanan Cloud
sebuah. Hitung: berikan otak untuk memproses beban kerja Anda
6
c. Basis data: simpan kumpulan data yang lebih terstruktur
b. Biaya:
saya. Hanya bayar sumber daya saat Anda menggunakannya
aku aku aku. Tanpa biaya modal : Membeli hardware dan software
pusat data. Anda harus melakukan pemulihan bencana (DR) dan perencanaan
lokasi, jadi jika Anda menggunakan layanan mereka, Anda dapat langsung
agar layanan Anda menggunakan beberapa lokasi, tetapi setidaknya itu adalah
pilihan.
d. Kecepatan:
7
aku aku aku. Waktu penyetelan cepat.
f. Skalabilitas: Tambahkan dan hapus sumber daya dengan mudah sesuai kebutuhan. Contoh:
situs e-commerce. Membutuhkan lebih banyak sumber daya selama waktu puncak. Skala
g. Kelincahan: Lingkungan cloud dapat menawarkan kelincahan yang luar biasa. Anda dapat
dengan mudah kembali sumber daya yang sesuai bila diperlukan. Ini memungkinkan
mengambilnya dari sistem yang tidak membutuhkannya. Anda juga dapat dengan mudah
h. Keamanan:
8
aku aku aku. Terutama berisiko untuk bisnis di sektor yang sangat diatur.
Kami memiliki lebih dari 4 miliar pengguna di Internet saat ini. Dalam istilah data murni, inilah
tampilan gambarnya:
Sejumlah besar data yang dihasilkan dengan kecepatan yang ganas dan dalam semua jenis format
inilah yang kita sebut hari ini sebagai Big data. Tetapi tidak mungkin menyimpan data ini pada sistem
tradisional yang telah kami gunakan selama lebih dari 40 tahun. Untuk menangani data yang sangat
besar ini, kita memerlukan kerangka kerja yang jauh lebih kompleks yang tidak hanya terdiri dari
9
Kami menyebut kerangka ini sebagai Hadoop dan bersama dengan semua komponennya,
kami menyebutnya Ekosistem Hadoop. Tetapi karena ada begitu banyak komponen dalam
memahami dan mengingat apa yang dilakukan setiap komponen dan di mana tempatnya
menganalisis data mereka. Tetapi data yang dihasilkan hari ini tidak dapat ditangani oleh
● Sebagian besar data yang dihasilkan saat ini semi-terstruktur atau tidak terstruktur. Tetapi
sistem tradisional telah dirancang untuk hanya menangani data terstruktur yang memiliki
● Database Hubungan dapat diskalakan secara vertikal yang berarti Anda perlu
● Data yang disimpan saat ini berada dalam silo yang berbeda. Menyatukan mereka dan
10
Apa itu Hadoop?
Orang-orang di Google juga menghadapi tantangan yang disebutkan di atas ketika mereka
ingin memberi peringkat halaman di Internet. Mereka menemukan bahwa Database Relasional
sangat mahal dan tidak fleksibel. Jadi, mereka datang dengan solusi baru mereka sendiri.
GFS adalah sistem file terdistribusi yang mengatasi kelemahan sistem tradisional.
Ini berjalan pada perangkat keras yang murah dan menyediakan paralelisasi,
skalabilitas, dan keandalan. Ini meletakkan batu loncatan untuk evolusi Apache
Hadoop.
Apache Hadoop adalah kerangka kerja sumber terbuka berdasarkan sistem file Google
yang dapat menangani data besar dalam lingkungan terdistribusi. Lingkungan
terdistribusi ini dibangun dari sekelompok mesin yang bekerja sama secara erat untuk
memberikan kesan bahwa satu mesin bekerja.
Berikut adalah beberapa sifat penting Hadoop yang harus Anda ketahui:
● Itu membuat dan menyimpan replika data sehingga toleran terhadap kesalahan.
● Ini ekonomis karena semua node dalam cluster adalah perangkat keras
komoditas yang tidak lain adalah mesin murah.
● Hadoop menggunakan konsep lokalitas data untuk memproses data pada node di
● Itu dapat menangani semua jenis data: terstruktur, semi-terstruktur, dan tidak
terstruktur. Ini sangat penting di zaman sekarang karena sebagian besar data kami
(email, Instagram, Twitter, perangkat IoT, dll.) tidak memiliki format yang
ditentukan.
11
Sekarang, mari kita lihat komponen ekosistem Hadoop.
Ini adalah komponen penyimpanan Hadoop yang menyimpan data dalam bentuk file.
Setiap file dibagi menjadi blok 128MB (dapat dikonfigurasi) dan menyimpannya di
mesin yang berbeda di cluster. Ini memiliki arsitektur master-slave dengan dua
12
komponen utama: Node Nama dan Node Data.
● Node nama adalah node master dan hanya ada satu per cluster. Tugasnya
adalah untuk mengetahui di mana setiap blok milik file berada di cluster
● Data node adalah node slave yang menyimpan blok data dan terdapat
lebih dari satu per cluster. Tugasnya adalah mengambil data saat dan
saat diperlukan. Itu terus berhubungan dengan node Nama melalui detak
jantung
PetaKurangi
Untuk menangani Big Data, Hadoop mengandalkan algoritma MapReduce yang diperkenalkan oleh
Google dan memudahkan untuk mendistribusikan pekerjaan dan menjalankannya secara paralel dalam
sebuah cluster. Ini pada dasarnya membagi satu tugas menjadi beberapa tugas dan memprosesnya di
Filter fase peta, grup, dan sortir data. Data input dibagi menjadi beberapa bagian.
Setiap tugas peta bekerja pada pemisahan data secara paralel pada mesin yang
berbeda dan menghasilkan pasangan nilai kunci. Output dari fase ini ditindaklanjuti
oleh tugas pengurangan dan dikenal sebagai fase Reduce. Ini mengumpulkan data,
merangkum hasilnya, dan menyimpannya di HDFS.
13
BENANG
BENANG atau Negosiator Sumber Daya Lain mengelola sumber daya di cluster dan mengelola
aplikasi melalui Hadoop. Ini memungkinkan data yang disimpan dalam HDFS untuk diproses
dan dijalankan oleh berbagai mesin pemrosesan data seperti pemrosesan batch, pemrosesan
aliran, pemrosesan interaktif, pemrosesan grafik, dan banyak lagi. Hal ini meningkatkan
HBase
HBase adalah database NoSQL berbasis Kolom. Ini berjalan di atas HDFS dan dapat
menangani semua jenis data. Ini memungkinkan pemrosesan waktu nyata dan
operasi baca/tulis acak dilakukan dalam data.
Babi
14
Pig dikembangkan untuk menganalisis kumpulan data besar dan mengatasi kesulitan
untuk menulis peta dan mengurangi fungsi. Ini terdiri dari dua komponen: Pig Latin dan
Pig Engine.
Pig Latin adalah Bahasa Scripting yang mirip dengan SQL. Pig Engine adalah mesin
eksekusi yang dijalankan oleh Pig Latin. Secara internal, kode yang ditulis dalam Pig
diubah menjadi fungsi MapReduce dan membuatnya sangat mudah bagi programmer
yang tidak mahir dalam Java.
Sarang lebah
Hive adalah sistem gudang data terdistribusi yang dikembangkan oleh Facebook. Ini memungkinkan
untuk membaca, menulis, dan mengelola file dengan mudah di HDFS. Ia memiliki bahasa query
sendiri untuk tujuan yang dikenal sebagai Hive Querying Language (HQL) yang sangat mirip dengan
SQL. Ini membuatnya sangat mudah bagi programmer untuk menulis fungsi MapReduce
Skup
Banyak aplikasi masih menyimpan data dalam database relasional, sehingga menjadikannya
sumber data yang sangat penting. Oleh karena itu, Sqoop memainkan peran penting dalam
15
membawa data dari Database Relasional ke HDFS.
Perintah yang ditulis dalam Sqoop secara internal diubah menjadi tugas MapReduce yang
dijalankan melalui HDFS. Ia bekerja dengan hampir semua database relasional seperti MySQL,
Postgres, SQLite, dll. Ini juga dapat digunakan untuk mengekspor data dari HDFS ke RDBMS.
Saluran
Flume adalah layanan sumber terbuka, andal, dan tersedia yang digunakan untuk mengumpulkan,
mengagregasi, dan memindahkan data dalam jumlah besar secara efisien dari berbagai sumber data ke
HDFS. Itu dapat mengumpulkan data secara real-time serta dalam mode batch. Ini memiliki arsitektur yang
Kafka
Ada banyak aplikasi yang menghasilkan data dan sejumlah aplikasi yang menggunakan
data tersebut. Tetapi menghubungkan mereka secara individual adalah tugas yang
sulit. Di situlah Kafka masuk. Ia berada di antara aplikasi yang menghasilkan data
(Produsen) dan aplikasi yang menggunakan data (Konsumen).
Kafka didistribusikan dan memiliki partisi, replikasi, dan toleransi kesalahan bawaan.
16
Itu dapat menangani data streaming dan juga memungkinkan bisnis untuk menganalisis data secara real-
time.
Oozie
Oozie adalah sistem penjadwal alur kerja yang memungkinkan pengguna untuk menautkan pekerjaan yang
ditulis di berbagai platform seperti MapReduce, Hive, Pig, dll. Dengan menggunakan Oozie, Anda dapat
menjadwalkan pekerjaan terlebih dahulu dan dapat membuat saluran pekerjaan individu untuk dieksekusi
secara berurutan atau paralel dengan mencapai tugas yang lebih besar. Misalnya, Anda dapat menggunakan
Oozie untuk melakukan operasi ETL pada data dan kemudian menyimpan output dalam HDFS.
Dalam cluster Hadoop, mengoordinasikan dan menyinkronkan node bisa menjadi tugas yang menantang. Oleh
karena itu, Zookeeper adalah alat yang sempurna untuk masalah tersebut.
17
Percikan
Spark adalah kerangka kerja alternatif untuk Hadoop yang dibangun di atas Scala tetapi mendukung
beragam aplikasi yang ditulis dalam Java, Python, dll. Dibandingkan dengan MapReduce, Spark
menyediakan pemrosesan dalam memori yang menghasilkan pemrosesan lebih cepat. Selain
pemrosesan batch yang ditawarkan oleh Hadoop, ia juga dapat menangani pemrosesan waktu nyata.
● Inti Percikanadalah mesin eksekusi utama untuk Spark dan API lain yang dibangun di
atasnya
● Streaming APImemungkinkan Spark untuk menangani data real-time. Itu dapat dengan
mudah diintegrasikan dengan berbagai sumber data seperti Flume, Kafka, dan Twitter
18
● MLlibadalah perpustakaan pembelajaran mesin yang dapat diskalakan yang
memungkinkan Anda melakukan tugas ilmu data sambil memanfaatkan properti Spark
secara bersamaan
● GrafikXadalah mesin komputasi grafik yang memungkinkan pengguna untuk secara interaktif
membangun, mengubah, dan menalar tentang data terstruktur grafik dalam skala besar dan
sulit untuk memahami apa yang dilakukan masing-masing komponen. Oleh karena itu, lebih mudah
untuk mengelompokkan beberapa komponen bersama berdasarkan di mana mereka berada dalam
● Flume, Kafka, dan Sqoop digunakan untuk menyerap data dari sumber eksternal
ke HDFS
● HDFS adalah unit penyimpanan Hadoop. Bahkan data yang diimpor dari Hbase
● MapReduce dan Spark digunakan untuk memproses data pada HDFS dan
19
● Pig, Hive, dan Spark digunakan untuk menganalisis data
● Oozie membantu menjadwalkan tugas. Karena berfungsi dengan berbagai platform, ini
Data besar: Big Data pada dasarnya mengacu pada data yang bervolume besar dan
memiliki kumpulan data yang kompleks. Data dalam jumlah besar ini dapat terstruktur,
semi-terstruktur, atau tidak terstruktur dan tidak dapat diproses oleh perangkat lunak dan
perubahan, dll dilakukan pada data dan kemudian digunakan oleh perusahaan untuk
pengambilan keputusan yang cerdas. Big data adalah aset yang sangat kuat di dunia saat
ini. Data besar juga dapat digunakan untuk mengatasi masalah bisnis dengan menyediakan
Gudang data: Data Warehouse pada dasarnya adalah kumpulan data dari berbagai
sumber yang heterogen. Ini adalah komponen utama dari sistem intelijen bisnis di
mana analisis dan pengelolaan data dilakukan yang selanjutnya digunakan untuk
meningkatkan pengambilan keputusan. Ini melibatkan proses ekstraksi, pemuatan,
dan transformasi untuk menyediakan data untuk analisis. Gudang data juga
digunakan untuk melakukan kueri pada sejumlah besar data. Ini menggunakan
data dari berbagai database relasional dan file log aplikasi.
Di bawah ini adalah tabel perbedaan antara Big Data dan Data Warehouse:
20
teknologi dapat diterapkan. operasi dalam suatu perusahaan.
2. Big data adalah teknologi untuk Data warehouse adalah arsitektur yang
menyimpan dan mengelola data dalam digunakan untuk mengatur data.
jumlah besar.
5. Data besar tidak mengikuti kueri SQL Di gudang data kami menggunakan
apa pun untuk mengambil data dari kueri SQL untuk mengambil data dari
database. database relasional.
Sumber Bahan:
https://www.analyticsvidhya.com/blog/2020/10/introduction-hadoop-e
cosystem/
21
https://medium.com/analytics-vidhya/an-intro-to-cloud-computing-for
- ilmuwan-data-dan-insinyur-data-96d85b4852de
https://www.geeksforgeeks.org/difference-between-big-data-and-data
- gudang/
https://aws.amazon.com/big-data/what-is-hive/
https://www.tutorialspoint.com/impala/impala_overview.htm
https://www.Oracle.com/database/what-is-a-data-warehouse/
https://www.analyticsvidhya.com/blog/2021/07/a-brief-introduction-to
- gudang data/#:~:text=A%20data%20warehouse%20is%20terutama,
besar%20jumlah%20dari%20historis%20data .
https://apprenda.com/library/cloud/introduction-to-cloud-computing/
# :~:text=Cloud%20computing%20terdiri%20dari%20tiga,sebagai%20a%20
layanan%20sampai%20pelanggan .
https://dataprivacymanager.net/security-vs-privacy/
https://panoply.io/data-warehouse-guide/data-warehouse-concepts-tra
ditional-vs-cloud/
22