Kelompok 8:
Dosen Pengampu :
2022
DAFTAR ISI
DAFTAR ISI..........................................................................................................................i
BAB 1 PENDAHULUAN..................................................................................................2
A. LATAR BELAKANG...............................................................................................2
B. TUJUAN....................................................................................................................2
BAB 2 TEORI PEMBAHASAN........................................................................................3
A. TEORI........................................................................................................................3
B. PEMBAHASAN........................................................................................................5
KESIMPULAN...................................................................................................................17
i
BAB 1
PENDAHULUAN
A. LATAR BELAKANG
Data warehouse umumnya dicirikan dengan adanya proses Extract, Transform, Load
(ETL) yang memungkinkan penggabungan data dari berbagai sumber, penyesuaian
format dan pembuatan datamart untuk berbagai kebutuhan (Boulekrouche et al.
2015). Kesuksesan dalam pembangunan data warehouse bergantung pada kesuksesan
proses Extract, Transform, Load (ETL) dari basis data Online Transactional
Processing (OLTP) ke dalam data warehouse (Amborowati 2010). Meskipun proses
ETL dalam data warehouse sangat penting, penelitian terkait bidang ini masih
terbilang sedikit dilakukan. Hal ini karena sulit dan kurangnya model formal untuk
mewakili aktivitas ETL yang memetakan data mentah dari sumber data yang berbeda
ke dalam format yang sama untuk dipetakan ke dalam data warehouse (El-Sappagh
et al. 2011). Tugas utama ETL adalah melakukan ekstraksi, transformasi dan
integrasi seluruh data yang kemudian dibersihkan sebelum dipetakan ke dalam data
warehouse (Vassiliadis et al. 2002).
B. TUJUAN
a. Mengetahui pengertian data warehouse
b. Mengetahui komponen – komponen yang ada di dalam data warehouse
c. Membuat skema/modul dan mengelola data menggunakan aplikasi Talend Open
Studio
2
BAB 2
TEORI PEMBAHASAN
A. TEORI
1. Data Warehouse
Data Warehouse adalah sekumpulan Data yang sudah terintegrasi, berorientasikan
subjek Database yang dirancang untuk mendukung fungsi dari Decision Support
System dimana Data setiap unit tersebut relevan dengan waktu. Data Warehouse
berisi Data atomic dan lightly summarized Data. Berdasarkan dari definisi diatas
dapat disimpulkan Data Warehouse adalah kumpulan Data yang terintegrasi dan
berorientasikan subject, berdasarkan waktu dan tidak mengalami perubahan secara
langsung dan berfungsi untuk mendukung proses pengambilan keputusan. Data
warehouse memilik empat karakteristik utama, antara lain:
1) Subject Oriented
Subject Oriented artinya data diorganisir berdasarkan subjek utama dalam
lingkungan perusahaan, bukan berorientasi pada proses atau fungsi aplikasi
seperti yang terjadi pada lingkungan operasional.
2) Integrated
Integrated artinya dapat disimpan sebagai unit tunggal, bukan sebagai kumpulan
file - file yang mun gkin mempunyai struktur atau pengaturan yang berbeda.
Dari semua aspek dalam data warehouse integrasi adalah aspek yang paling
penting. Data dalam data warehouse diambil dari sumber beragam yang
terpisah. Saat data tersebut diambil, data diubah, dibentuk ulang, diringkas,
dirangkai ulang dan seterusnya. Hasilnya, ketika telah berada dalam suatu data
warehouse, data memiliki gambaran fisik terpadu yang tunggal.
3) Non-volatile
Data didalam data warehouse tidak terus menerus berubah, data baru dapat
ditambahkan tetapi data lama masih tidak terhapus. Sebagaimana mestinya, data
dalam lingkungan operasional diperbaharui tetapi data dalam data warehouse
3
menunjukkan serangkaian karakteristik yang berbeda (refresh dari OLTP). Data
dalam data warehouse biasanya diisi dan diakses tetapi tidak diperbaharuhi.
4) Time variant
Karakteristik terakhir yang menonjol dari data warehouse adalah time variant.
Time variant artinya dimensi waktu secara eksplisit termasuk dalam data
sehingga kecenderungan dan perubahan seiring waktu dapat dipelajari untuk
mengenal kecenderungan dan pola dari suatu data.
2. Integrasi
Integrasi adalah penggabungan data dari berbagai sumber dimana biasanya dimulai
dengan proses penyerapan yang mencakup langkah-langkah seperti pembersihan
data, pemetaan ETL (Extract, Transform, and Load), dan transformasi. Tempat yang
dijadikan penyimpanan data harus fleksibel dan dapat menampung data dengan
jumlah besar.
3. ETL (Extract, Transform, and Load)
Extract, Transform, Load adalah proses menemukan Data dan mengintegrasikan
Data tersebut dan kemudian meletakkan Data tersebut kedalam Data Warehouse:
Ekstract
Extraction adalah proses pemilihan Data dari lingkungan satu dan memindahkannya
ke lingkungan lainnya
Transform
Transformation adalah tahapan yang menggunakan beberapa peraturan atau fungsi
pada Data yang sudah diambil dan mengukur bagaimana Data tersebut dapat
digunakan untuk analisis dan dapat meliputi Transformasi seperti penjumlahan Data,
encoding Data, penggabungan Data, pemisahan Data, penghitungan Data dan
pembuatan surrogate keys.
Loading
Load adalah proses memasukkan nilai Data kedalam sebuah Database yang
sebelumnya kosong.
4. Talend Open Studio
4
Talend merupakan open source untuk data integration, Talent biasanya digunakan
untuk integrasi antara sistem operasional, ETL (extract, transform dan load), dan
migrasi data oleh beberapa sumber. Talend akan membantu Anda dalam mengelola
semua aspek dari tahap ekstraksi data, transformasi data, dan loading data secara
efisien dan efektif.
Talend sudah dilengkapi dengan beberapa fitur seperti berikut ini : Memudahkan
pemodelan data dengan menggunakan desain tool secara drag and drop Terdapat
lebih dari 900 komponen yang dapat menghubungkan semua sumber data,
manipulasi string, penanganan lookup otomatis, kemampuan untuk menjalankan
extract, transform dan load.
Talend merupakan solusi untuk data integration yang sudah handal dan terbukti telah
diunduh jutaan kali, sudah memiliki ratusan ribu pengguna dan memiliki komunitas
yang dapat membantu para developer dalam mengembangkan sistem dan
memecahkan beberapa permasalah yang terkait dengan integrasi data. Talend sudah
digunakan oleh beberapa perusahaan terbesar di dunia, serta instansi pemerintah.
B. PEMBAHASAN
Studi Kasus ini dibuat untuk memenuhi nilai dari mata kuliah Data Warehouse.
Adapun studi kasus yang kami buat sebagai berikut:
Komponen:
Digunakan untuk
tFileInputExcel menginputkan file
metadata excel
Digunakan untuk
tMap menghubungkan beberapa
file
tLogRow Digunakan untuk melihat
hasil output secara
console.
5
Duginakan untuk
tfileCopy
mengcopy file
Digunakan untuk
tfilterRow
memfilter data
6
Skema:
Langkah – Langkah:
1. Membuat database terlebih dahulu
2. Buka aplikasi Talend Open Source
3. Buat file baru pada aplikasi talend open source (create job)
Isi form diatas sesuai dengan nama file yang akan dibuat untuk membuat lembar
kerja, lalu klik finish.
4. Setelah lembar kerja telah dibuat masukan object object untuk membentuk
schema pada talend open source.
7
5. Buat file delimited di metadata lalu klik (create file delimited)
8
b. Browse file dengan format file csv untuk diinputkan, lalu ubah format dibawah
menjadi windows kemudian next
e. Drop file delimited yang sudah dibuat dan pilih componentnya sebagai
tfileinputdelimited
6. Buat file exel di metadata lalu klik (create file exel)
9
a. Masukan nama (mhs) lalu next
10
b. Browse file yang akan diinputkan lalu centang all sheetsdan next
11
d. Lalu klik finish
e. Saat file sudah dibuat drop file tersebut ke lembar kerja dengan pilih component
tFileinputexcel.
7. Lakukan hal yang sama dengan mengcreate file excel di metadata, buat 2 file
excel Kembali dengan isian data yang berbeda untuk file studykasus2 dan stok
lalu drop file ke lembar kerja dan pilih component tFileinputexcel.
8. Selanjunya cari pada find component objek tmap lalu drop ke lembar kerja.
a. Hubungkan file yang tadi sudah di inputkan ke lembar kerja dan hubungkan
menggunakan row (main)
12
b. Dengan cara klik kanan piih row main lalu hubungkan ke objek tmap
9. Setelah menghubungkan setiap file nya ke tmap menggunakan row (main), klik
2 kali pada tmap dan akan muncul tampilan seperti dibawah ini.
a. Klik icon + diatas untuk membuat table output, table pertama dibuat dengan
nama table hasil akhir, lalu buat lagi table kedua untuk data yang direject dengan
nama tabel hasilsalah
b. Masukan data dari beberapa row sebelah kanan untuk digabungkan di table
hasilakhir dan table hasilsalah
c. Setelah itu apply lalu klik ok
10. Cari lagi di find component tfileOutputdelimited lalu drop ke lembar kerja
13
a. Hubungkan tmap pada tfileOutputexcel_1 menggunakan row hasilakhir
b. Hubungkan tmap pada tfileOutputcopy_2 menggunakan row hasilsalah
11. Hasil output pada tFileOutputDelimited_1 filter menggunakan objek tfilterrow
dihubungkan mmenggunakan row (main)
14
13. tfilter row_1dihubungkan dengan hasil lalu dari hasil di hbngkan klik kanan di
hasil terus on componentok di hubungjan ke msgbox dan klik kkanan juga di
hasil dengan klik main di hubungkan tlogrow1
15
Maka akan menampilkan sekian dan terimakasih
16. Lslu klik run maka akan menampilkan dengan output di bawah ini
16
KESIMPULAN
17