Anda di halaman 1dari 9

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 1, No. 11, November 2017, hlm. 1358-1366 http://j-ptiik.ub.ac.id

Optimasi Scheduling untuk Proses Extract, Transform, Load (ETL) pada


Data Warehouse Menggunakan Metode Round Robin Data Partitioning
(Studi Kasus: Universitas XYZ)
Agung Yudha Berliantara1, Satrio Agung Wicaksono2, Aryo Pinandito3

Program Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Brawijaya


Email: 1agung.berliantara@gmail.com, 2 satrio.agung@ub.ac.id, 3aryo.pinandito@gmail.com

Abstrak
Data yang ada di dalam data warehouse dapat diambil dari banyak sumber melalui proses ETL (extract,
transform, dan load). Proses scheduling pada ETL data warehouse adalah proses yang harus dilalui
untuk pembentukan data warehouse. Masalah yang muncul ketika melakukan proses scheduling untuk
proses ETL contohnya, untuk melakukan proses ETL dalam memproses data yang sangat besar akan
dibutuhkan time cost yang sangat besar pula. Apabila tidak ditangani dengan baik, maka kemungkinan
akan membutuhkan waktu yang sangat lama untuk eksekusi hingga ketidakkonsistenan data. Proses ETL
dengan cara konvensional (tidak menggunakan metode Round-Robin) akan diujikan dan dibandingkan
dengan proses ETL yang menggunakan metode Round-Robin untuk mendapatkan hasil uji coba pada
penelitian ini. Perbedaan dari kedua proses ini terdapat pada jumlah tabel partisi yang digunakan dalam
proses ETL. Pada proses ETL metode Round-robin, tabel target akan dibagi (dipartisi) menjadi beberapa
bagian, sedangkan untuk cara yang konvensional tidak diperlukan pembagian tabel target (partisi).
Setelah uji coba selesai, ditemukan perbedaan dari kedua metode tersebut dalam segi waktu eksekusi.
Melalui percobaan tersebut, diperoleh kesimpulan bahwa metode Round-robin memberikan waktu
eksekusi yang lebih efisien hingga 60,1% tergantung dari jumlah data dan banyaknya partisi yang
digunakan.
Kata kunci: optimasi, ETL, scheduling, Round-Robin
Abstract
The data in the data warehouse can be extracted from many sources through the ETL (extract,
transform, and load) processes. The scheduling process in ETL data warehouse is a process that must
be passed for the establishment of data warehouse. Problems that arise when performing the scheduling
process for the ETL process are to perform the ETL process for very large data, it will require a very
large time cost as well. If it is not handled properly, it will probably take a very long time for execution
and inconsistency data. The ETL process in the conventional way (not using the Round-Robin method)
will be tested and compared with the ETL process using the Round-Robin method to obtain test results
for this research. The difference between these two processes is the number of partition tables used in
the ETL process. In the ETL process of the Round-robin method, the table target will be partitioned into
sections, whereas for the conventional way there is no need to partitioning the table target. After the
trial is complete, the difference between the two methods is found in terms of execution time. Through
the experiment, it is concluded that the Round-robin method gives a more efficient execution time up to
60,1% depending on the amount of data and the number of partitions used.
Keywords: optimization, ETL, scheduling, Round-robin

1. PENDAHULUAN Indonesia, dan Universitas XYZ menerapkan


teknologi data warehouse. Universitas XYZ
Dalam perkembangan teknologi pesat
memprioritaskan banyak hal dalam proses
seperti saat ini, berbagai macam bentuk
bisnisnya. Sehingga salah satu kebutuhan utama
teknologi masuk ke dalam berbagai macam
bagi Universitas XYZ yaitu analisis data
bidang kehidupan. Terutama pada teknologi
akademik mahasiswa yang meliputi sebaran
basis data. Ada banyak Universitas ternama di

Fakultas Ilmu Komputer


Universitas Brawijaya 1358
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1359

IPK, pemasukan fakultas setiap semester, dan scheduling untuk proses ETL yang efisien
hasil kuesioner mahasiswa setiap semester. sebagai solusi dari permasalahan tersebut.
Berdasarkan website resmi Universitas XYZ Penghematan waktu sangat dibutuhkan ketika
sampai dengan Januari 2015, Universitas XYZ proses ETL mengingat dalam penelitian ini
memiliki total 64.037 mahasiswa aktif dari berfokus pada instansi pendidikan dan
jenjang-jenjang yang tersebar di 15 fakultas membutuhkan penyajian data yang cepat.
(Universitas XYZ, Maret 2016). Contoh dari Penelitian ini juga merujuk pada penelitian
data tersebut dapat disimpulkan bahwa data yang yang ditulis oleh Anastasion Karagiannis yang
dimiliki Universitas XYZ sangat banyak. Karena berjudul “Scheduling Strategies For Efficient
data Universitas XYZ memiliki jumlah yang ETL Execution”. Pembahasan dari jurnal ini
sangat banyak, dan ketika akan melakukan tidak jauh berbeda dengan jurnal yang ditulis
analisis pada data tersebut maka akan oleh Revathy Sreekumar pada penelitiannya,
dibutuhkan sumber daya yang sangat besar. namun terdapat perbandingan antar algoritme
Agar data yang jumlahnya sangat banyak scheduling dengan parameter alokasi memori
tersebut dapat diolah dan akhirnya menyediakan yang digunakan dan waktu eksekusi. Proses
informasi yang bermanfaat, diperlukanlah tools scheduling pada ETL data warehouse adalah
yang berfungsi untuk mengumpulkan seluruh proses yang harus dilalui untuk pembentukan
data dari banyak sumber sehingga hasilnya nanti data warehouse (Kimball & Caserta, 2004).
dapat digunakan untuk mendukung keputusan Apabila tidak ditangani dengan baik, maka
pada level manajerial. Salah satu alternatif solusi kemungkinan akan terjadi ketidakkonsistenan
yang menjanjikan yakni penerapan data data ketika data dalam proses dimuat (load) ke
warehouse. dalam data warehouse. Tidak hanya itu, menurut
Pemanfaatan data warehouse pada Anastasios Karagiannis proses scheduling pada
beberapa instansi pendidikan telah memberikan ETL sangat relevan untuk optimasi response
banyak sekali manfaat dalam menyediakan dan time pada aliran proses operasi pengolahan
memberikan informasi yang akurat sebagai (konsumsi) data pada tuple, penggunaan waktu
pendukung di dalam pengambilan keputusan proses ETL yang lebih efisien. Selain itu,
pada level manajerial. Data di dalam data masalah yang timbul dari proses ETL scheduling
warehouse dapat diambil dari banyak sumber adalah meminimalkan waktu eksekusi dan/ atau
data melalui proses Extract, Transform, dan konsumsi memori tanpa kehilangan data, serta
Load (ETL). Data warehouse menggunakan menghindari deadlock (Karagiannis, et al.,
model multidimensional (schema) untuk 2013). Maka dari itu diperlukan sebuah cara atau
menyimpan data, dengan kata lain data metode untuk menjalankan proses ETL tersebut
warehouse berfokus pada pengukuran, fakta sehingga bisa mendapatkan hasil yang
yang ada pada proses bisnis. Model maksimal.
multidimensional memiliki komponen- Metode Round-robin dipilih karena proses
komponen dasar, yakni tabel dimensi dan tabel ini juga digunakan sebagian besar untuk
fakta. Isi dari tabel fakta berupa pengukuran mengevaluasi algoritme yang lebih canggih,
numerik, seperti jumlah. Sedangkan isi dari tabel untuk meningkatkan algoritme yang akan
dimensi adalah dimensi entitas perusahaan yang dikembangkan dan algoritme round-robin
berkaitan dengan tabel fakta. Maka dari itu menangani semua aktivitas tanpa prioritas
diperlukan susunan skema data multidimensi tertentu. Keuntungan menggunakan
yang tepat dalam proses implementasi data penjadwalan Round-robin adalah setiap proses
warehouse. yang dijalanakan akan mendapat pembagian
Terdapat masalah yang muncul ketika CPU yang adil, mudah diimplementasi, dan
melakukan proses scheduling untuk proses ETL dapat digunakan untuk mengetahui waktu
sebagai contoh, ketika melakukan proses ETL terburuk untuk sebuah response time pada
untuk memproses data yang sangat besar akan sebuah proses (Krzyzanowski, 2015). Penelitian
membutuhkan time cost yang sangat besar. yang dilakukan Karagiannis menyebutkan
Seperti pada paper journal yang ditulis oleh bahwa metode Round-robin jauh lebih baik
Revathy Sreekumar pada penelitiannya yang dalam hasil eksekusi waktu untuk proses ETL
berjudul “ETL Scheduling in Real-Time Data apabila dibandingkan dengan metode ETL
Warehousing” membahas mengenai arsitektur Minimum-Memory. Karena Round-robin
data warehouse, time cost, dan betapa berfokus pada konsumsi waktu yang digunakan
pentingnya scheduling. Maka diperlukanlah untuk memproses ETL, sedangkan Minimum-

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1360

Memory berfokus pada pembagian resource sangat penting dalam setiap sistem real-time dan
memory. Namun yang perlu digarisbawahi sangat dipengaruhi oleh jenis sistem algoritme
dalam penerapan metode Round-robin pada ETL akan dijalankan. Sebuah scheduler memberikan
adalah aliran data yang akan diproses. kebijakan untuk mengerjakan berbagai proses
Dengan dasar gambaran permasalahan di dalam sistem real-time. Scheduler memastikan
atas maka dapat memberikan gambaran untuk bahwa semua proses dijalankan sesuai prioritas
pengembangan struktur data multidimensi yang ditetapkan. Sebuah online scheduler
terhadap kebutuhan data warehouse Universitas membuat keputusan penjadwalan berdasarkan
XYZ yang benar. Selain itu struktur ETL yang algoritme penjadwalan dan keadaan saat ini
tepat untuk penerapan alur ETL metode Round- sistem (Sreekumar & Balaji, 2014).
robin. Lalu, diharapkan metode Round-robin Algoritme Round-robin scheduling juga bisa
dapat diimplementasikan ke dalam proses ETL diterapkan pada proses ETL scheduling data
sehingga memberikan manfaat dan dampak dari warehouse, berikut penjelasan singkatnya
segi kualitas dan kuantitas terhadap data yang (Sreekumar & Balaji, 2014); Round-robin
akan disajikan serta penghematan waktu scheduling dapat diimplementasikan dalam
eksekusi. proses ETL. Daftar dari input tables di mana data
telah diperbarui dalam staging database dapat
2. PENELITIAN TERKAIT
diperoleh dengan menggunakan system tables.
Revathy Sreekumar pada penelitiannya Untuk ETL scheduling, diasumsikan bahwa
yang berjudul “ETL Scheduling in Real-Time push technology akan digunakan untuk
Data Warehousing” membahas mengenai mengambil data dari sumber data ke dalam
arsitektur data warehouse, betapa pentingnya staging database. Dalam Round-robin
scheduling, dan penjelasan mengenai beberapa scheduling, semua input tables akan diberikan
algoritme scheduling yang sering diterapkan waktu untuk mendorong data ke dalam proses
pada proses ETL (Sreekumar & Balaji, 2014). ETL.
Output dari paper journal ini adalah hasil Pada proses ETL yang menerapkan
perbandingan dari masing-masing algoritme algoritme Round-robin, bisa menerapkan teknik
yang bertujuan untuk meningkatkan waktu partisi pada data yang akan dimuat (load) ke
eksekusi dan mengurangi konsumsi memori. dalam data warehouse. Di dalam lingkungan
Anastasion Karagiannis pada penelitiannya klasik, proses ETL berjalan pada mesin yang
yang berjudul “Scheduling Strategies for unik yang disebut “ETL server” di mana data
Efficient ETL Execuiton”. Pembahasan dari semuanya diproses oleh satu kasus ETL. Untuk
paper journal ini tidak jauh berbeda dengan mendistribusikan proses ETL pada sebuah
jurnal yang ditulis oleh Revathy Sreekumar pada kluster di komputer dan menjalankannya pada
penelitiannya yang berjudul “ETL Scheduling in sebuah jalan paralel, data juga harus
Real-Time Data Warehousing”, namun terdapat didistribusikan. Dengan begitu “data
perbandingan antar algoritme scheduling dengan partitioning” adalah persoalan dalam sebuah
parameter alokasi memori yang digunakan dan lingkungan paralel/ terdistribusi (Bala, et al.,
waktu eksekusi (Kimball & Caserta, 2004). 2014). Pada teknik partisi data yang dilakukan
Berdasarkan penelitian-penelitian di atas, dalam proses ETL juga terdapat rumus
maka dapat ditarik kesimpulan bahwa persamaan yang akan membagi data ke dalam
pengimplementasian scheduling pada ETL. partisi data tersebut. Persamaan tersebut yaitu:
Yaitu dapat membantu suatu organisasi untuk 𝑠𝑖𝑧𝑒(𝑝𝑎𝑟𝑡𝑖𝑡𝑖𝑜𝑛) = 𝑠𝑖𝑧𝑒(𝑣)/𝑛𝑏_𝑝𝑎𝑟𝑡 (P 1)
meminimalisir alokasi memori yang selanjutnya Seperti yang terlihat pada persamaan P 1,
akan digunakan untuk proses tersebut dan juga partisi sederhana diberikan sebuah data volume
waktu eksekusi dari proses tersebut. v, teknik sederhana menghasilkan partisi sama
besar pada persamaan P 1 di mana nb_part
3. LANDASAN KEPUSTAKAAN
adalah jumlah partisi data. Gambar 1 akan
3.1. Algoritme Round-robin Scheduling pada menggambarkan bagaimana pada Persamaan P 1
ETL diimplementasi ke dalam proses ETL.
Sreekumar (2014) dalam penelitiannya Seperti yang telah dijelaskan sebelumnya,
menyebutkan algoritme penjadwalan dalam Gambar 1 merupakan gambaran umum
(scheduling algorithm) sangat penting untuk pada persamaan P 1. Persamaan tersebut
sistem yang real-time. Banyak algoritme membagi data pada sebelah kiri ke dalam sesi
penjadwalan yang tersedia. Pilihan algoritme

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1361

partisi sebelah kanan yang membagi data didistribusikan secara acak di seluruh partisi
menjadi tiga empat partisi. (Sybase Inc., 2009). Selain itu, hanya karena
partisi, perhitungan dari hasil akhir query secara
parsial sangat cepat dan memiliki dampak yang
tidak terlalu berarti dalam waktu eksekusi query
keseluruhan. Namun waktu eksekusi pun juga
bervariasi tergantung dari kompleksitas query
dan yang paling penting adalah jumlah baris
yang merupakan hasil dari parsial data
(Bernardino & Madeira, 2001).
Dari sturktur ETL menggunakakn metode
Round-robin, yang membedakan struktur ETL
tersebut dengan metode konvensional adalah
terletak partisi. Seperti yang djelaskan
sebelumnya, metode Round-robin membagi data
dengan partisi, sedangkan metode konvensional
tidak menggunakan partisi data. Sehingga data
yang masuk dalam tahap loading data hanya
Gambar 1. Contoh penerapan metode Round-robin pada memiliki satu jalan. Atau dengan kata lain, data
ETL tersebut diantrekan untuk bisa masuk ke dalam
Untuk volume data dengan jumlah yang tabel dimensi atau fakta.
besar, kebijakan paralel yang berbeda harus
4. METODOLOGI
dirancang: membagi (partitioning) dari dataset
ke dalam set yang lebih kecil. Gagasan tersebut 4.1 Studi Pustaka
adalah dengan menggunakan contoh yang Studi pustaka merupakan tahap pencarian
berbeda dari proses ETL untuk menangani setiap dan pengumpulan referensi yang dapat
data partisi. Pada akhir proses, partisi data akan didapatkan dari paper jurnal, buku, e-book,
digabungkan (merge) dan dimuat (load) ke target naskah penelitian, dan internet untuk
recordset. Untuk membagi (partitioning), mendapatkan keterangan serta penjelasan
banyak implementasi yang telah diusulkan mengenai teori-teori yang digunakan untuk
dengan bertujuan untuk menyediakan partisi mendukung dasar dalam penelitian ini. Dari
berukuran sama untuk memfasilitasi load data ke pengumpulan literator, terdapat beberapa
satu target, salah satunya yaitu dengan Round- literator yang mendukung penelitian.
robin partitioning. Pada metode Round-robin
partitioning, record didistribusikan antara node 4.2 Wawancara
pengolahan yang berbeda secara round-robin: Pada tahap wawancara, tahap ini dilakukan
record pertama dikirim ke node pertama, record untuk mendapatkan informasi tentang
kedua node kedua, dan sebagainya. Metode ini lingkungan (environment) untuk mengelola
sesuai untuk mengubah ukuran partisi yang database Universitas Brawijaya. Tujuan dari
memiliki set data (Kozielski & Wrembel, 2008). wawancara ini adalah sebagai bahan rujukan
Dapat disimpulkan bahwa partisi menggunakan untuk pembangunan environment database yang
metode Round-robin adalah untuk membagi akan digunakan untuk mendukung penelitian ini,
jumlah data secara rata ke dalam masing-masing supaya proses implementasi yang nantinya akan
partisi yang telah dibuat sebelumnya. dijalankan setidaknya menyerupai keadaan
Tujuan untuk membagi data ke dalam partisi environment yang sesungguhnya.
adalah untuk menyeimbangkan jumlah data yang Tahap wawancara dilakukan untuk
dikirimkan ke data warehouse ketika dalam mengetahui keadaan lingkungan (environment)
proses ETL. Dalam partisi Round-robin sistem yang digunakan untuk mengolah basis
Adaptive Server tidak menggunakan kriteria data meliputi OLTP dan data warehouse itu
partisi. Adaptive Server memberikan baris secara sendiri. Tahap ini dilakukan dengan cara
Round-robin untuk setiap partisi sehingga setiap menggali informasi melalui wawancara yang
partisi berisi jumlah data yang sama atau kurang dilakukan dengan pihak TIK Universitas
lebih sama dari baris, sehingga load balancing Brawijaya.
pada data yang diolah dapat dicapai. Karena Berdasarkan hasil wawancara, diketahui
tidak ada kriteria pada partisi, baris bahwa untuk mengelola data akademik

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1362

mahasiswa Universitas Brawijaya terdapat OLTP dan data warehouse, terdapat 2 (dua)
beberapa fakultas yang mengelola data dengan skema besar pada database akademik dan
menggunakan database tersendiri. Fakultas- database keuangan, lalu ada satu skema lain
fakultas tersebut antara lain: Fakultas Hukum, untuk data warehouse. Maka dari itu, skema
Fakultas Ilmu Administrasi, Fakultas tabel-tabel database ini dirancang menyerupai
Peternakan, Fakultas Pertanian, Fakultas keadaan sebenarnya pada Universitas XYZ.
Kedokteran, Fakultas Matematika dan Ilmu 4.4 Implementasi Desain
Pengetahuan Alam, dan Fakultas Ilmu Sipil. Implementasi desain pada tahap ini adalah
Sedangkan beberapa fakultas yang lain untuk mengimplementasikan hasil rancangan
menggunakan satu database untuk digunakan lingkungan basis data yang telah dilakukan pada
bersama dalam mengelola data akademiknya. tahap analisis. Lalu setelah itu dilakukan pula
Fakultas-fakultas tersebut antara lain: Fakultas implementasi desain skema tabel-tabel database
Ilmu Komputer, Fakultas Teknologi Pertanian, dengan cara menulis syntax SQL pada SQL tools
dan Fakultas Ekonomi dan Bisnis. Sehingga agar menghasilkan tabel-tabel di dalam
dapat disimpulkan bahwa jumlah yang database.
dibutuhkan untuk mengelola data akademik Implementasi basis data yang akan
fakultas terdapat 8 (delapan) database berbeda dijelaskan meliputi implementasi atau penerapan
dalam satu server pada Universitas Brawijaya. skema OLTP pada skema akademik maupun
Selain untuk mengelola data akademik, database skema OLTP bagian keuangan. Untuk
ini juga digunakan untuk menampung hasil melakukan implementasi rancangan data
kuesioner mahasiswa terhadap dosen, kuesioner warehouse sebagai pemodelan
tersebut dilakukan setiap akhir semester. multidimensional, implementasi menggunakan
Selain itu, untuk mengelola data keuangan bahasa Structured Query Language (SQL) yang
setiap fakultas yang terdapat pada Universitas berupa Data Definition Language (DDL).
Brawijaya dibutuhkan 1 buah database.
4.5 Pembangunan Data
Database tersebut untuk menampung pemasukan
Pada tahap ini, dilakukan proses
keuangan masing-masing fakultas setiap
pembangunan data. Pembangunan data yang
semester.
dimaksud adalah untuk membangun data untuk
4.3 Analisis dan Desain Database dimasukkan ke dalam tabel-tabel pada skema
Proses analisis adalah digunakan untuk database, yang selanjutnya data-data ini akan
menarik kesimpulan dari hasil wawancara yang digunakan untuk diolah dan sebagai bahan
telah dilakukan sebelumnya. Pada proses proses ETL.
wawancara sebelumnya yang menghasilkan Dalam perancangan data untuk mengisi
gambaran environment database pada keadaan data pada tabel-tabel OLTP, digunakan data
yang sebenarnya, akan dilakukan proses tiruan (dummy). Untuk membangun data dummy
implementasi environment database pada tersebut diperlukan perangkat lunak (software)
penelitian ini. Sehingga penelitian ini dilakukan pengolah angka (spreadsheet). Dalam membuat
berdasarkan gambaran lingkungan basis data data satu tabel, diperlukan setidaknya satu sheet
dalam keadaan yang sebenarnya. Lalu dilakukan pada satu file spreadsheet tersebut.
juga analisis untuk perancangan struktur Untuk data seperti nama mahasiswa, nim
database, seperti melakukan observasi untuk mahasiswa, nama dosen dan nip dosen bisa
mengetahui tabel-tabel apa saja dalam database menggunakan pengurutan dan pengisian data
yang akan digunakan untuk menyimpan data otomatis yang disediakan oleh software tersebut
yang akan digunakan selanjutnya. Lalu setelah untuk menghasilkan data angka dan nama yang
proses analisis, kemudian tahap selanjutnya terurut. Lalu, data disimpan dalam bentuk CSV.
adalah melakukan desain skema database yang Untuk pembangunan data mahasiswa dan mata
selanjutnya diterapkan pada database dengan kuliah, diperlukan data jumlah mahasiswa
SQL DDL untuk membuat tabel. masing-masing program studi dan data mata
Pada tahap analisis dan desain database ini kuliah terlebih dahulu. Data tersebut didapatkan
akan dilakukan perancangan Physical Data dari hasil wawancara dan permohonan data
Modelling (PDM) dan perancangan arsitektur kepada pihak TIK Universitas Brawijaya. Untuk
fisik yang akan diterapkan pada database OLTP pembangunan data jumlah dosen, data tersebut
dan database data warehouse. Sesuai dengan didapatkan dari PDDIKTI. Lalu data yang sudah
hasil wawancara yang telah dilaksanakan dan
melalui proses verifikasi rancangan skema pada

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1363

jadi dan siap dimasukkan ke dalam tabel robin scheduling dengan yang tidak
database. menggunakan metode Round-robin. Sehingga
Setelah pembuatan data pada masing- akan menghasilkan grafik perbedaan antara
masing tabel pada skema OLTP selesai, langkah proses ETL menggunakan metode Round-robin
selanjutnya adalah melakukan proses scheduling dan yang tidak menggunakan metode
memasukkan data (import) ke dalam tabel-tabel Round-robin.
dalam skema OLTP. Proses ini dilakukan Pada tahap pengujian performa ETL, akan
dengan menggunakan software pengolah SQL. dilakukan analisis kecepatan transfer data yang
4.6 Desain Struktur ETL diterima oleh tabel dimensi dan fakta. Analisis
Desain struktur ETL adalah proses yang kecepatan tersebut dilihat dari langkah yang
digunakan untuk merancang aliran data yang diproses dalam tabel output yang digunakan
akan diproses dalam proses ETL. Tahap ini sebagai target.
digunakan agar dapat mengetahui dari mana saja Dalam menganalisis hasil proses ini,
data yang diproses sehingga dapat dilakukan dilakukan proses eksekusi ETL (run) sebanyak 5
proses mapping pada ETL dan dimasukkan ke kali. Namun sebelum dilakukan proses run, data
dalam skema data warehouse. pada tabel target, yaitu dimensi atau fakta,
Setelah melakukan perancangan sistem, terlebih dahulu akan dikosongkan, sehingga
yang di dalamnya meliputi perancangan PDM tidak ada proses update data atau murni hanya
pada OLTP dan pada skema data warehouse dan untuk proses insert data.
kemudian melakukan perancangan dan Dalam proses analisis yang dilakukan
pembangunan data, maka selanjutnya adalah sebanyak 5 kali dan akan diamati dari waktu
melakukan perancangan proses ETL. eksekusi pada masing-masing proses eksekusi.
Perancangan ini berguna untuk memetakan Untuk proses ETL yang menggunakan metode
(mapping) atribut-atribut pada tabel skema round-robin akan diambil rata-rata waktu
OLTP ke skema data warehouse untuk proses eksekusi pada masing-masing tabel output atau
ETL. partisi.
4.7 Implementasi Struktur ETL 5. HASIL
Pada tahap implementasi struktur ETL ini, Dalam paper ini telah dilakukan
dilakukan penerapan desain struktur ETL yang implementasi optimasi ETL scheduling dengan
sebelumnya dirancang. Implementasi ini akan membandingkan hasil eksekusi waktu dari
menghasilkan struktur ETL yang akan eksekusi ETL dengan cara menggunakan metode
digunakan, sehingga pada proses selanjutnya Round-robin dan metode konvensional. Seperti
dapat dilakukan analisis terhadap proses ETL yang telah digambarkan hasilnya pada Gambar 2
ini. sampai Gambar 10 hasil dari waktu eksekusi
Pada tahap implementasi struktur ETL ini, menunjukkan hasil yang berbeda, dan beberapa
dilakukan implementasi struktur ETL yang telah yang lain menunjukkan hasil yang sama
dirancang sebelumnya. Selain itu, pada bagian meskipun telah menggunakan metode Round-
ini juga akan dilakukan implementasi pengujian robin.
proses ETL yang menggunakan metode round-
robin dan yang tidak menggunakan metode
round-robin. Setelah itu akan ditunjukkan pula
hasil dari proses implementasi ini. Untuk metode
round-robin sendiri akan menggunakan empat
partisi kelompok partisi, yaitu 2 partisi, 4 partisi,
5 partisi dan 6 partisi.
4.8 Pengujian
Tujuan dari pengujian adalah untuk menilai
hasil implementasi ETL yang telah dirancang
sebelumnya. Pengujian yang dilakukan adalah Gambar 2. Grafik hasil pengujian ETL tabel
pengujian performa dari ETL. Performa ETL DIM_DOSEN
yang diuji pada penelitian ini dilihat dari segi
Dalam hasil eksekusi dengan menggunakan
waktu eksekusi. Tahap pengujian performa ETL
ini adalah dengan cara membandingkan data metode Round-robin hasilnya cenderung lebih
flow ETL yang menerapkan metode Round- unggul atau lebih efisien. Karena data dibagi ke

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1364

dalam partisi yang telah disediakan dibagi secara rata ke dalam kelompok-kelompok
sebelumnya. Data yang sebelumnya diproses partisi. Sebagai contoh ada 1000 baris data
dalam proses extract dan transform akan dibagi dengan 3 partisi untuk Round-robin, data pada
ke dalam beberapa kelompok ketika memasuki baris ke 1 akan masuk ke partisi 1, data baris ke
proses loading. dua akan masuk ke partisi 2, data baris ke tiga
akan masuk ke partisi 3, data baris ke empat
masuk ke partisi 1, data baris ke lima masuk ke
partisi ke 2, dan seterusnya. Setelah data tersebut
dimuat (load) lalu secara bersama-sama data
yang tersimpan pada langkah loading
dimasukkan ke dalam tabel target.

Gambar 3. Grafik hasil pengujian ETL tabel


DIM_MATKUL

Gambar 7. Grafik hasil pengujian ETL tabel


DIM_STATUS_KULIAH

Gambar 4. Grafik hasil pengujian ETL tabel


DIM_PERTANYAAN_KUESIONER

Gambar 8. Grafik hasil pengujian ETL tabel


FACT_KUESIONER

Gambar 5. Grafik hasil pengujian ETL tabel DIM_PRODI

Gambar 9. Grafik hasil pengujian ETL tabel


FACT_MAHASISWA

Metode Round-robin menjadi lebih unggul


karena beberapa baris data dimasukkan secara
bersama-sama sehingga menyingkat waktu
Gambar 6. Grafik hasil pengujian ETL tabel eksekusi. Sedangkan cara konvensional data
DIM_SELEKSI akan didistribusikan satu per satu ke dalam tabel
targetnya.
Dalam proses loading tersebut data akan

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1365

Dari hasil pengujian di atas didapat tidak dibagi ke dalam beberapa kelompok
beberapa hasil yang menunjukkan perbedaan (partisi), sehingga data yang masuk akan
antara pengujian menggunakan kedua metode. diantrekan (queue). Sedangkan struktur ETL
Contoh hasil pengujian yang menunjukkan hasil kedua adalah struktur ETL menggunakan
perbedaan waktu eksekusi seperti yang terlihat metode Round-robin, data akan dibagi ke dalam
pada Gambar 10. Pada Gambar 10 dilakukan partisi-partisi yang telah disediakan. Sehingga
pengujian ETL menggunakan metode Round- waktu yang digunakan untuk memproses data
robin. yang masuk ke tabel target akan lebih sedikit.
Lalu merujuk dari pembahasan di atas
adalah proses ETL scheduling dengan metode
konvensional terbukti kurang efisien apabila
dibandingkan dengan proses ETL scheduling
menggunakan metode Round-robin. Dimana
Gambar 10. Contoh perbedaan hasil pengujian dengan ketika menggunakan metode scheduling Round-
menggunakan metode Round-robin robin dapat dilakukan penghematan waktu
hingga 60,1% tergantung dari jumlah data dan
Pada Gambar 10 terlihat pula perbedaan banyaknya partisi. Lalu dengan menambahkan
hasil waktu eksekusi untuk proses ETL jumlah partisi, maka waktu yang dibutuhkan
menggunakan metode Round-robin. Dapat untuk menjalankan proses ETL akan semakin
terlihat bahwa semakin banyak partisi yang sedikit atau dengan kata lain, semakin banyak
digunakan, maka akan semakin menghemat partisi yang disediakan akan semakin sedikit
waktu untuk proses eksekusi. Namun ada waktu yang dibutuhkan untuk proses ETL.
beberapa pengujian yang memiliki hasil
eksekusi tidak memiliki perbedaan. Contohnya 7. DAFTAR PUSTAKA
seperti yang terlihat pada Gambar 11.
Bala, M., Boussaid, O. & Alimazighi, Z., 2014.
P-ETL: Parallel-ETL based on the
MapReduce Paradigm. IEEE.
Bernardino, J. & Madeira, H., 2001.
Experimental Evaluation of a New
Distributed Partitioning Technique for
Gambar 11. Contoh hasil pengujian dengan menggunakan Data Warehouses. IEEE, pp. 318-319.
metode Round-robin yang tidak memiliki perbedaan hasil
Karagiannis, A., Vassiliadis, P. &
Hasil eksekusi yang ditampilkan seperti AlkisSimitsis, 2013. Scheduling strategies
pada Gambar 11, tidak ada perbedaan hasil for efficient ETL execution. Elsevier.
eksekusi. Meskipun partisi ditambahkan tidak
Kimball, R. & Caserta, J., 2004. The Data
ada perbedaan hasil eksekusi. Hal ini juga karena
Warehouse ETL Toolkit : Practical
pengaruh jumlah data yang diproses yaitu hanya
Techniques for Extracting, Cleaning,
8 baris data.
Conforming, and Delivering Data.
s.l.:Wiley.
6. KESIMPULAN
Kozielski, S. & Wrembel, R., 2008. New
Hasil perancangan skema multidimensi
Trends in Data Warehousing and Data
data warehouse sesuai dengan kebutuhan
Analysis. 3rd ed. s.l.:Springer Science &
menghasilkan 2 tabel fakta ditambah dengan 7
Business Media.
tabel dimensidan telah mendapat verifikasi
kelayakan dari pihak TIK Universitas Krzyzanowski, P., 2015. Paul Krzyzanowski's
Brawijaya. Hasil skema multidimensi ini yang Site. [Online]
digunakan untuk menyimpan data uji coba ETL Tersedia di:
dalam penelitian ini. https://www.cs.rutgers.edu/~pxk/416/notes
Untuk proses ETL pada data warehouse /07-scheduling.html
Universitas XYZ dibagi menjadi 2 (dua) jenis [Diakses 18 September 2016].
struktur. Yaitu yang pertama proses ETL
Sreekumar, R. & Balaji, S., 2014. ETL
konvensional. Proses dari eksekusi ini adalah
Scheduling in Real-Time Data
data yang dikirimkan ke tabel dimensi atau fakta
Warehousing. International Journal of

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1366

Computer Science & Engineering


Technology (IJCSET), Volume 5.
Sybase Inc., 2009. SyBooks Online. [Online]
Tersedia di:
http://infocenter.sybase.com/help/index.jsp
?topic=/com.sybase.infocenter.dc32300.15
50/html/sqlug/sqlug448.htm
[Diakses 10 November 2016].

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai