Judul Managing Mysql Cluster Data Using Cloudera Impala
International Conference on Computational Modeling and
Security (CMS 2016) Volume Volume 85 , Nomor 463 - 474 Tahun 2016 Penulis Sahithi Tummalapalli, Venkata rao Machavarapu Reviewers Muhammad Yusril Nezarulloh Tanggal 08 Maret 2021 Tujuan 1. Makalah ini memberikan hasil awal. Hasil evaluasi menunjukkan bahwa Impala mencapai kinerja yang dapat diterima untuk beberapa tugas analisis dan pemrosesan data bahkan dibandingkan dengan cluster Hive dan Pig dan MySql. 2. Makalah ini memaparkan waktu pemrosesan dari Impala, Hive, Pig, dan MySQL Cluster pada model data sederhana dengan query sederhana saat datanya sedang berkembang. Bagian 3 membahas metode yang diusulkan. Bagian 4 menunjukkan hasil dan penjelasannya. Dan bagian terakhir, bagian 5 memberikan kesimpulan. Isi MySQL Cluster MySQL Cluster adalah database berkerumun yang banyak digunakan untuk menyimpan dan memanipulasi data yang memiliki pengelompokan tanpa berbagi apa pun untuk sistem manajemen basis data MySql yang menyediakan ketersediaan tinggi dan throughput tinggi dengan latensi rendah. Masalah dengan MySQL Cluster adalah ketika data tumbuh lebih besar, waktu yang dibutuhkan untuk memproses data meningkat dan sumber daya tambahan mungkin diperlukan. Dengan Hadoop dan Impala, waktu pemrosesan data bisa lebih cepat daripada cluster MySql dan mungkin lebih cepat daripada Hive dan Pig. Headhoop Hadoop adalah kerangka kerja yang menyediakan pustaka sumber terbuka untuk komputasi terdistribusi menggunakan antarmuka mapreduce tunggal sederhana dan sistem file terdistribusi sendiri. Ini memfasilitasi skalabilitas dan menangani pendeteksian dan penanganan kegagalan. Hadoop memiliki komponen yang menangani semua kerumitan untuk kami dan dengan menggunakan kerangka kerja pengurangan peta sederhana, kami dapat memanfaatkan kekuatan komputasi terdistribusi tanpa harus khawatir tentang kerumitan seperti toleransi kesalahan, kehilangan data. Hadoop dapat digunakan untuk menyimpan data besar dan untuk memproses data seperti data mining, pembuatan laporan, analisis file, pengindeksan web, dan penelitian bioinformatic. Apache Hive dan Apache Pig Adalah program open source untuk menganalisis kumpulan data besar dalam bahasa tingkat tinggi. Pig adalah sistem aliran data tingkat tinggi bersama dengan aljabar kueri sederhana yang memungkinkan pengguna mendeklarasikan transformasi data ke file atau grup file. Hive adalah perangkat lunak gudang data yang memfasilitasi kueri dan mengelola kumpulan data besar dalam penyimpanan terdistribusi. Hive memungkinkan pengguna untuk memperluas sistem dengan jenis dan fungsinya sendiri. Bahasa kueri sangat mirip dengan SQL dan oleh karena itu dapat dengan mudah dipahami oleh siapa pun yang terbiasa dengan SQL. Cloudera Impala Adalah mesin kueri waktu nyata berlisensi Apache untuk data yang disimpan di HDFS. Impala sangat cocok untuk menggunakan kasus di mana kueri dan kecepatan waktu nyata sangat penting. Tetapi sementara banyak pengembang akan terbiasa dengan Hive dan Pig, Impala menggunakan miliknya sendiri daemon yang tersebar di seluruh cluster untuk kueri. Selain itu, Impala tidak memanfaatkan MapReduce, memungkinkan Impala untuk mengembalikan hasil secara real time.
Hasil Hasil Cluster MYSQL
Seiring bertambahnya data, waktu pemrosesan kueri di
MySQL Cluster meningkat. Cluster mySQL didistribusikan dan dibagikan data yang memiliki sekumpulan komputer, masing-masing menjalankan satu atau lebih proses dan semua node ini terhubung oleh jaringan. Namun, hal itu menimbulkan biaya pada akses jaringan saat mengakses data antara server MySQL dan tabel yang didistribusikan di seluruh node data. Untuk menjalankan kueri, data harus diambil dari semua node data dan dapat mengakibatkan penundaan [6]. Ada masalah kinerja kueri karena akses berurutan ke mesin penyimpanan dan Unik
Hasil Hive
Data Hive disimpan dalam HDFS dalam file teks biasa
dengan CSV, seperti yang diimpor oleh Sqoop. Hive menggunakan mekanisme pengindeksan untuk membaca file lebih cepat. Jika kueri memiliki fungsi agregasi, penggabungan, atau pengurutan, sarang akan segera memulai pekerjaan Pengurangan Peta [ 7]. Hadoop dapat menjalankan pekerjaan pengurangan peta secara paralel dan beberapa kueri yang dijalankan di Hive secara otomatis menggunakan paralelisme ini. Namun, kueri Hive tunggal dan kompleks biasanya diterjemahkan ke dalam angka
Hasil Pig
Hasil berikut adalah query Pig pada kumpulan data D1, D2
dan D3 seperti yang ditunjukkan pada Tabel IV dan hasil rata-rata ditunjukkan pada Gambar 6. Pig adalah bahasa prosedural tingkat tinggi untuk menanyakan kumpulan data semi terstruktur yang besar sehingga pig tidak berfungsi dengan baik dengan kumpulan data ini yang sangat terstruktur. Pig mengeksekusi pendekatan langkah demi langkah seperti yang didefinisikan oleh pemrogram tetapi tidak bekerja dengan baik dengan kueri yang memiliki sedikit fungsi agregasi, penggabungan, dan penyortiran. lebih banyak waktu untuk kumpulan data ini Hasil Impala
Dalam kumpulan data ini, Impala mengatasi waktu
pemrosesan Hive. Gambar 7 menunjukkan kueri waktu pemrosesan secara umum antara MySQL Cluster, Hive, Pig dan Impala. MySQL Cluster lebih cepat daripada Hive di beberapa titik tetapi karena datanya tumbuh lebih besar MySQL membutuhkan lebih banyak waktu untuk memproses data sedangkan Hive dapat memproses data secara efektif dengan waktu yang lebih singkat Tetapi Impala jauh lebih efisien daripada Hive dan membutuhkan waktu yang jauh lebih sedikit daripada Hive untuk memproses data. Di sisi lain, Pig tidak cocok untuk model data ini dan dapat bekerja dengan baik saat kueri lebih kompleks. Kelebihan Kelebihan Jurnal merupakan sesuatu yang dapat memberikan nilai lebih pada sebuah jurnal, kelebihan dari jurnal ini adalah 1. Hasil yang ada dalam jurnal dipaparkan dengan sangat jelas sehingga tujuan dari penelitian dapat tersampaikan dengan baik 2. Penelitian dilakukan berdasarkan data yang bersifat real time, sehingga hasil yang diperoleh akurat Kekurangan Kekurangan dalam jurnal dapat menjadi acuan untuk perbaikan dalam penelitian berikutnya, kekurangan dalam jurnal imi adalah 1. Metode penelitian yang digunakan tidak jelas, hanya saja pada hasil dari penelitian langsung menjelaskan secara rinci, sehingga tidak relevan dengan metode penelitian yang ada Kesimpulan Dalam makalah ini, kita dapat banyak mempelajari dan mengamati banyak pilihan software yang dapat digunakan dalam pembuatan seperti pengujian yang ada diatas dengan menggunakan MySQL, Hive,Pig,Cloudera Impala, dll yang masih banyak lagi