Anda di halaman 1dari 4

Judul Managing Mysql Cluster Data Using Cloudera Impala

International Conference on Computational Modeling and


Security (CMS 2016)
Volume Volume 85 , Nomor 463 - 474
Tahun 2016
Penulis Sahithi Tummalapalli, Venkata rao Machavarapu
Reviewers Muhammad Yusril Nezarulloh
Tanggal 08 Maret 2021
Tujuan 1. Makalah ini memberikan hasil awal. Hasil evaluasi
menunjukkan bahwa Impala mencapai kinerja yang
dapat diterima untuk beberapa tugas analisis dan
pemrosesan data bahkan dibandingkan dengan cluster
Hive dan Pig dan MySql.
2. Makalah ini memaparkan waktu pemrosesan dari
Impala, Hive, Pig, dan MySQL Cluster pada model data
sederhana dengan query sederhana saat datanya sedang
berkembang. Bagian 3 membahas metode yang
diusulkan. Bagian 4 menunjukkan hasil dan
penjelasannya. Dan bagian terakhir, bagian 5
memberikan kesimpulan.
Isi MySQL Cluster
MySQL Cluster adalah database berkerumun yang
banyak digunakan untuk menyimpan dan memanipulasi data
yang memiliki pengelompokan tanpa berbagi apa pun untuk
sistem manajemen basis data MySql yang menyediakan
ketersediaan tinggi dan throughput tinggi dengan latensi
rendah. Masalah dengan MySQL Cluster adalah ketika data
tumbuh lebih besar, waktu yang dibutuhkan untuk
memproses data meningkat dan sumber daya tambahan
mungkin diperlukan. Dengan Hadoop dan Impala, waktu
pemrosesan data bisa lebih cepat daripada cluster MySql dan
mungkin lebih cepat daripada Hive dan Pig.
Headhoop
Hadoop adalah kerangka kerja yang menyediakan
pustaka sumber terbuka untuk komputasi terdistribusi
menggunakan antarmuka mapreduce tunggal sederhana dan
sistem file terdistribusi sendiri. Ini memfasilitasi skalabilitas
dan menangani pendeteksian dan penanganan kegagalan.
Hadoop memiliki komponen yang menangani semua
kerumitan untuk kami dan dengan menggunakan kerangka
kerja pengurangan peta sederhana, kami dapat
memanfaatkan kekuatan komputasi terdistribusi tanpa harus
khawatir tentang kerumitan seperti toleransi kesalahan,
kehilangan data. Hadoop dapat digunakan untuk
menyimpan data besar dan untuk memproses data seperti
data mining, pembuatan laporan, analisis file, pengindeksan
web, dan penelitian bioinformatic.
Apache Hive dan Apache Pig
Adalah program open source untuk menganalisis
kumpulan data besar dalam bahasa tingkat tinggi. Pig adalah
sistem aliran data tingkat tinggi bersama dengan aljabar
kueri sederhana yang memungkinkan pengguna
mendeklarasikan transformasi data ke file atau grup file.
Hive adalah perangkat lunak gudang data yang
memfasilitasi kueri dan mengelola kumpulan data besar
dalam penyimpanan terdistribusi. Hive memungkinkan
pengguna untuk memperluas sistem dengan jenis dan
fungsinya sendiri. Bahasa kueri sangat mirip dengan SQL
dan oleh karena itu dapat dengan mudah dipahami oleh siapa
pun yang terbiasa dengan SQL.
Cloudera Impala
Adalah mesin kueri waktu nyata berlisensi Apache untuk
data yang disimpan di HDFS. Impala sangat cocok untuk
menggunakan kasus di mana kueri dan kecepatan waktu
nyata sangat penting. Tetapi sementara banyak pengembang
akan terbiasa dengan Hive dan Pig, Impala menggunakan
miliknya sendiri daemon yang tersebar di seluruh cluster
untuk kueri. Selain itu, Impala tidak memanfaatkan
MapReduce, memungkinkan Impala untuk mengembalikan
hasil secara real time.

Hasil Hasil Cluster MYSQL

Seiring bertambahnya data, waktu pemrosesan kueri di


MySQL Cluster meningkat. Cluster mySQL didistribusikan
dan dibagikan data yang memiliki sekumpulan komputer,
masing-masing menjalankan satu atau lebih proses dan
semua node ini terhubung oleh jaringan. Namun, hal itu
menimbulkan biaya pada akses jaringan saat mengakses
data antara server MySQL dan tabel yang didistribusikan di
seluruh node data. Untuk menjalankan kueri, data harus
diambil dari semua node data dan dapat mengakibatkan
penundaan [6]. Ada masalah kinerja kueri karena akses
berurutan ke mesin penyimpanan dan Unik

Hasil Hive

Data Hive disimpan dalam HDFS dalam file teks biasa


dengan CSV, seperti yang diimpor oleh Sqoop. Hive
menggunakan mekanisme pengindeksan untuk membaca
file lebih cepat. Jika kueri memiliki fungsi agregasi,
penggabungan, atau pengurutan, sarang akan segera
memulai pekerjaan Pengurangan Peta [ 7]. Hadoop dapat
menjalankan pekerjaan pengurangan peta secara paralel dan
beberapa kueri yang dijalankan di Hive secara otomatis
menggunakan paralelisme ini. Namun, kueri Hive tunggal
dan kompleks biasanya diterjemahkan ke dalam angka

Hasil Pig

Hasil berikut adalah query Pig pada kumpulan data D1, D2


dan D3 seperti yang ditunjukkan pada Tabel IV dan hasil
rata-rata ditunjukkan pada Gambar 6. Pig adalah bahasa
prosedural tingkat tinggi untuk menanyakan kumpulan data
semi terstruktur yang besar sehingga pig tidak berfungsi
dengan baik dengan kumpulan data ini yang sangat
terstruktur. Pig mengeksekusi pendekatan langkah demi
langkah seperti yang didefinisikan oleh pemrogram tetapi
tidak bekerja dengan baik dengan kueri yang memiliki
sedikit fungsi agregasi, penggabungan, dan penyortiran.
lebih banyak waktu untuk kumpulan data ini
Hasil Impala

Dalam kumpulan data ini, Impala mengatasi waktu


pemrosesan Hive. Gambar 7 menunjukkan kueri waktu
pemrosesan secara umum antara MySQL Cluster, Hive, Pig
dan Impala. MySQL Cluster lebih cepat daripada Hive di
beberapa titik tetapi karena datanya tumbuh lebih besar
MySQL membutuhkan lebih banyak waktu untuk
memproses data sedangkan Hive dapat memproses data
secara efektif dengan waktu yang lebih singkat Tetapi
Impala jauh lebih efisien daripada Hive dan membutuhkan
waktu yang jauh lebih sedikit daripada Hive untuk
memproses data. Di sisi lain, Pig tidak cocok untuk model
data ini dan dapat bekerja dengan baik saat kueri lebih
kompleks.
Kelebihan Kelebihan Jurnal merupakan sesuatu yang dapat
memberikan nilai lebih pada sebuah jurnal, kelebihan dari
jurnal ini adalah
1. Hasil yang ada dalam jurnal dipaparkan dengan
sangat jelas sehingga tujuan dari penelitian dapat
tersampaikan dengan baik
2. Penelitian dilakukan berdasarkan data yang bersifat
real time, sehingga hasil yang diperoleh akurat
Kekurangan Kekurangan dalam jurnal dapat menjadi acuan untuk
perbaikan dalam penelitian berikutnya, kekurangan dalam
jurnal imi adalah
1. Metode penelitian yang digunakan tidak jelas, hanya
saja pada hasil dari penelitian langsung menjelaskan
secara rinci, sehingga tidak relevan dengan metode
penelitian yang ada
Kesimpulan Dalam makalah ini, kita dapat banyak mempelajari dan
mengamati banyak pilihan software yang dapat digunakan
dalam pembuatan seperti pengujian yang ada diatas dengan
menggunakan MySQL, Hive,Pig,Cloudera Impala, dll yang
masih banyak lagi

Anda mungkin juga menyukai