Anda di halaman 1dari 10

2.

Tinjauan Pustaka

Data warehouse adalah sistem yang menggabungkan data dari berbagi sumber
menjadi satu penyimpanan data yang tunggal, terpusat dan konsisten untuk
mendukung analisa bisnis, data mining, AI dan machine learning.

Data ditampilkan berdasarkan kebutuhan subjek. Subjek yang dimaksudkan dalam hal ini adalah
topik,area,kebutuhan,atau bidang peminatan tertentu yang menjadikan gudang data menjadi
lebih spesifik. Data yang dikelola hanyalah data menurut subjek, yaitu yang diperlukan untuk
proses pengambilan keputusan.Gudang data dibangun dari proses integrasi berbagai sumber
data yang berasal dari berbagai macam aplikasi, menjadi satu kesatuan yang utuh.

A. Karakteristik Gudang Data


Gudang data dapat didefinisikan sebagai sekumpulan data yang memiliki
empat buah karateristik utama, yaitu: berorientasi subyek, terintegrasi, terikat
dengan waktu, dan tidak lekang.

a. Berorientasi Subyek (Subject Oriented)


Data warehouse dirancang untuk menganalisa data berdasarkan subyek tertentu dalam
perusahaan atau organisasi, bukan pada proses atau fungsi aplikasi tertentu. Hal ini
disebabkan karena kebutuhan dari data warehouse adalah untuk menyimpan data yang
digunakan sebagai penunjang suatu keputusan.

Data warehouse memiliki ciri subject oriented yang berarti dalam desain sistem untuk
menganalisis didasari oleh subjek-subjek tertentu yang berkaitan dengan organisasi.
Misalnya untuk organisasi asuransi subjek yang terkait dan dalam skala mayor adalah
pelanggan, kebijakan, dan klaim. Untuk penjualan, subjek yang berskala mayor
contohnya adalah transaksi penjualan, produk, toko atau cabang.

b. Terintegrasi (Integrated)
Data warehouse dapat menyimpan data yang berasal dari sumber data yang berbeda ke
dalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan
demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan
yang menunjang keseluruhan konsep data warehouse itu sendiri. Syarat integrasi sumber
data dapat dipenuhi dengan berbagai cara seperti penamaan variabel yang konsisten,
ukuran variabel yang konsisten, struktur pengkodean yang konsiten, dan atribut fisik dari
data yang konsisten.

Dalam sistem data warehouse sangat memungkinkan untuk mendapatkan sumber


database operasional dari luar (external source). Dari kejadian ini menimbulkan
kemungkinan adanya perbedaan satuan antara database operasional (internal source)
dengan database-database dari luar. Maka dari itu dilakukanlah sebuah integrasi pada
satuan bilangan tertentu. Misalnya jika di internal memiliki satuan ukur panjang dengan
satuan cm, sedangkan di external source menggunakan mm, maka bisa di pilih salah satu
satuan yang menjadi patokan sehingga semua satuan terintegrasi menjadi satu dan sama.

c. Rentang Waktu (Time-Variant)


Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu
tertentu. Data warehouse selalu menyerap apa pun yang telah di-load oleh data
warehouse dari awal terbentuknya data warehouse hingga yang paling terbaru. Semua
data akan dijadikan bahan analisis dan pengambil keputusan yang valid pada rentan
waktu tertentu, misalnya harian, mingguan, bulanan, tahunan, dan nilai waktu lainnya.

Elemen waktu pada data warehouse harus jelas untuk menjaga kevalidan data pada
rentang waktu tertentu karena record data pada data warehouse rentang waktunya lebih
besar daripada database operasional demi kepentingan analisis data secara periodik.

d. Non Volatile (tidak lekang/tidak berubah)


Data warehouse tidak berubah (nonvolatile) namun biasanya setiap adanya perubahan
yang ada di database operasional akan membuat data warehouse menyerap data yang
baru kemudian secara incremental disatukan dengan data sebelumnya. Ini disebabkan
data warehouse hanya memiliki dua fungsi manipulasi data, yaitu load data dan access
data.

Data yang ada pada data warehouse tidak dapat diperbaharui atau di update, tetapi hanya
dapat di refresh dari data operasional atau sumber data berdasarkan waktu yang telah
ditentukan. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu
sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap
data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.

B. Komponen Gudang Data


1. Gudang
Komponen yang pertama adalah gudang atau tempat penyimpanan dari data tersebut.
Bentuknya pun bisa berbeda – beda disesuaikan dengan kebutuhan anda, diantaranya
adalah meliputi data warehouse appliance, analytics, cloud – hosted, dan typical
relational database.

2. Manajemen Gudang Data


Peran dari manajemen gudang data sangatlah kompleks, dimana harus ada pihak yang
mampu untuk mengelola gudang data dengan baik. Hal yang harus diperhatikan dalam
pengelolaan gudang data antara lain, dari segi keamanan, pembaharuan data, pemilihan
prioritas tugas, serta mengelola backup dan recovery apabila terdapat suatu keadaan yang
dianggap mendesak.
3. Metadata
Komponen yang ketiga adalah metadata, yaitu sebuah keterangan singkat dalam data
tersebut. Fungsi dari metadata sendiri adalah memberikan konteks atau gambaran
mengenai sebuah informasi agar tampak lebih jelas dan selaras.

4. Tools Akses
Terdapat beberapa tools yang dapat anda manfaatkan untuk mendukung strategi bisnis
anda menggunakan data warehouse. Pertama, anda dapat menggunakan konsep data
mining dan OLAP.

Untuk lebih jelasnya, anda dapat mencari beberapa referensi yang ada dalam internet.
Kedua, anda dapat menggunakan query reporting atau mengembangkan tools analytics
sendiri apabila anda memiliki tim developer atau pengembang aplikasi.

5. Tools ETL
ETL merupakan singkatan dari Extract, Transform, and load, yang berarti sebuah proses
pengambilan data yang nantinya dapat dimodifikasi formatnya. Dan pada akhirnya,
deretan informasi tersebut akan dimasukkan ke dalam data warehouse. Tools tersebut
nantinya akan mempengaruhi waktu, metode, dan tipe modifikasi dari data tersebut.

C. Star Schema
Desain Star Schema adalah struktur sederhana yang berhubungan dengan beberapa tabel
dan didefinisikan dengan join path. Desain database ini sangat kontras dengan struktur
normal untuk database proses transaksi, menyediakan query yang cepat sesuai respon
waktu, dan skema sederhana yang dapat dengan mudah dimengerti end user dan analis,
waulupun mereka be1um terbiasa dengan struktur database (Poe, 1996, pp120-121)

Disebut star schema karena entity-relationship diagram atau ERD-nya yang menyerupai
konstelasi bintang, beberapa bintang besar (fact table) dikelilingi bintang-bintang yang
lebih kecil (dimension tables). (Wikimedia Foundation, Inc., 2011). Berikut contoh
gambar star schema :
Struktur database sangat baik untuk membuat keputusan sebelum modeling data dan
database fisik didesain digunakan untuk star schema atau database tradisional lainnya
didesain. Star Schema adalah cepat untuk menjadi standar untuk desain Data Warehouse
karena:

1. Membuat sebuah desain database yang menyediakan respon waktu yang cepat.

2. Menyediakan desain yang dapat dengan mudah dimodifikasi dan ditambah untuk
mengatasi iterasi pembangunan dan perkembangan data warehouse.

3. Paralel dalam desain database, bagaimana end-user dapat menggunakan data.

4. Sederhana untuk mengerti dan membuat navigasi dari metadata untuk developer dan
end-user.

5. Memperluas piliban untuk tool front-end data dan akses data.

Star Schema terdiri dari dua tipe tabel, yaitu fact table dan dimension table. Fact Table
sering kali disebut major table, yang terdiri dari quantity atau factual data tentang bisnis
berdasarkan informasi yang diterima. Informasi ini sering kali berbentuk numerik dan
dapat terdiri dari banyak kolom dan ribuan baris. Dimension Table, sering kali disebut
minor table ini kecil dan menangani deskripsi data berdasarkan dimensi dari bisnis.

D. Tabel Fakta
1) Definisi Tabel Fakta
Tabel Fakta adalah tabel yang berisi pengukuran di sepanjang atribut dari tabel dimensi.
Ini dapat berisi informasi pada tingkat serendah mungkin. Beberapa tabel fakta hanya
berisi data ringkasan, yang disebut Tabel Fakta Agregat . Tabel fakta hampir berisi data
cap tanggal . Mari kita bahas karakteristik tabel fakta.

2) Kunci Rangkaian
Tabel fakta berisi kunci Rangkaian yang merupakan rangkai kunci utama dari semua
tabel dimensi. Kunci gabungan tabel fakta harus secara unik mengidentifikasi baris dalam
tabel fakta.

3) Butir Data
Butir data menunjukkan seberapa dalam pengukuran dalam tabel fakta telah disimpan.
Butir data harus pada tingkat tertinggi yang memungkinkan.

4) Tindakan Aditif
Atribut dari tabel fakta dapat sepenuhnya aditif atau semi-aditif . Langkah-langkah
tambahan sepenuhnya adalah yang dapat dengan mudah disimpulkan untuk semua
dimensi dalam tabel fakta. Misalnya quantity_ordered, adalah atribut yang dapat
disimpulkan untuk semua dimensi. Seperti, kita dapat mengambil total quantity_order,
untuk pelanggan tertentu, wilayah, tanggal, merek, dll. Tindakan semi-aditif adalah yang
dapat dijumlahkan sepanjang beberapa dimensi tabel fakta tetapi tidak semua dimensi.
Seperti, jumlah saldo tidak dapat disimpulkan dari dimensi waktu karena perubahan dari
waktu ke waktu.

5) Data Jarang
Terkadang kita dapat melihat catatan dalam tabel fakta yang memiliki atribut dengan
ukuran nol . Misalnya, mungkin tidak ada pesanan pada hari libur. Jadi, atribut untuk
tanggal ini akan memiliki ukuran nol. Kami tidak harus menyimpan ukuran untuk jenis
catatan seperti itu karena tidak memberikan informasi apa pun.

6) Dimensi yang memburuk


Kadang-kadang Anda mungkin menemukan beberapa dimensi dalam tabel fakta, yang
tidak aditif sama sekali. Misalnya order_number, customer_id, Anda tidak dapat
menambahkan jenis dimensi ini. Namun, jika Anda perlu menemukan pesanan yang
dibuat oleh pelanggan tertentu di bulan ini; maka Anda akan membutuhkan customer_id
untuk menghubungkan kembali pencarian Anda. Jenis ini jika atribut atau dimensi tabel
fakta disebut Dimensi Degradasi .

E. Tabel Dimensi
1) Definisi Tabel Dimensi
Tabel Dimensi adalah komponen kunci untuk Skema Mulai. Tabel dimensi berisi atribut
yang mewakili dimensi, di mana pengukuran dilakukan dalam tabel fakta. Selanjutnya,
kita akan membahas beberapa karakteristik tabel dimensi.

2) Atribut dan Kunci


Setiap tabel Dimensi harus memiliki kunci utama yang secara unik mengidentifikasi
setiap rekaman tabel. Secara umum diamati bahwa tabel dimensi mengandung banyak
atribut. Oleh karena itu, tampaknya luas yaitu ketika Anda membuat tabel dimensi Anda
akan menemukannya menyebar secara horizontal .

3) Nilai atribut
Nilai atribut dalam tabel dimensi jarang numerik, sebagian besar waktu Anda akan
menemukan nilai dalam atribut dalam format tekstual . Misalnya nama produk, merek,
kategori, sub-kategori, dll.

4) Hubungan antar Atribut


Seringkali Anda dapat mengamati, atribut yang Anda temui dalam tabel dimensi tidak
terkait langsung. Seperti, Product_brand tidak melakukan apa-apa dengan package_date
tetapi keduanya masih bisa menjadi atribut dari tabel dimensi Produk.

5) Normalisasi
Tabel dimensi tidak seharusnya dinormalisasi . Ini karena normalisasi tabel akan
membuat banyak tabel perantara. Ketika kueri mengambil atribut dari tabel dimensi dan
memulihkan pengukuran sepanjang itu untuk tabel fakta, kueri harus melalui tabel-tabel
perantara yang menjadi tidak efisien. Oleh karena itu, tabel dimensi tidak dinormalisasi.

6) Mengebor ke bawah, menggulung ke atas


Atribut tabel dimensi memungkinkan Anda untuk mendapatkan detail dengan melintasi
dari level atribut agregat yang lebih tinggi ke atribut level yang lebih rendah. Misalnya,
jika Anda ingin menemukan total penjualan di suatu wilayah maka Anda dapat
menelusuri untuk menemukan penjualan berdasarkan negara bagian, kota, pos. Anda
bahkan dapat menggulung untuk menemukan total penjualan pertama dengan zip,
kemudian oleh kota dan kemudian negara.

7) Hirarki Berganda
Seringkali tabel dimensi menawarkan banyak hierarki. Misalnya, kami memiliki tabel
dimensi produk untuk toko serba ada. Sekarang, kami memiliki dua departemen
pemasaran dan departemen akuntansi.
Departemen pemasaran akan menelusuri di antara atribut tabel dimensi produk dalam
hierarki tertentu untuk mendapatkan pengukuran untuk tabel fakta.

Di sisi lain, departemen akuntansi akan menelusuri di antara atribut tabel dimensi produk
dalam hierarki yang berbeda untuk mendapatkan pengukuran untuk tabel fakta.

Jadi, tabel dimensi harus memiliki beberapa hierarki atau tingkat agregasi atribut untuk
membuat pengguna menelusuri semua hierarki mana pun.

8) Rekaman
Meskipun tabel dimensi memiliki terlalu banyak atribut, ia memiliki lebih sedikit
rekaman

F. ETL (Extract, Transform, Load)


ETL adalah sekumpulan proses yang harus dilalui dalam pembentukan data warehouse.
Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata
yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. Proses ETL
sendiri terdiri dari extracting, transforming, loading, Berikut adalah penjelasan dari tiap
proses :

1) Extract
Extract adalah proses memilih dan mengambil data dari satu atau beberapa sumber dan
membaca/mengakses data yang dipilih tersebut. Proses ini dapat menggunakan query,
atau aplikasi ETL. Sebaiknya sebelum proses extract kita lakukan, akan lebih mudah jika
user sudah mendefinisikan kebutuhan terhadap sumber data yang akan kita butuhkan.

2) Transform
Pada Proses ini data yang telah diambil pada proses extract akan dibersihkan dan
mengubah data dari bentuk asli menjadi bentuk yang sesuai dengan kebutuhan data
warehouse. Kendala yang biasanya terjadi pada proses transform adalah sulitnya
menggabungkan data dari beberapa sistem yang harus dibersihkan sehingga data bersifat
konsisten.

3) Load
Load adalah proses terakhir yang berfungsi untuk memasukkan data ke dalam target
akhir, yaitu ke dalam data warehouse. Cara untuk memasukkan data adalah dengan
menjalankan SQL script secara periodik.Pada proses ini akan mengubah data kedalam
bentuk Dimensional Data Store agar format data cocok untuk diterapkan pada proses
analisis dan telah terintegrasi dengan beberapa sumber data. Proses Load yang termasuk
proses terakhir dalam ETL akan sampai ke berbagai macam output yang sesuai dengan
skemanya, yaitu terdiri dari proses load-up data (lodupd), load-insert data (lodins), dan
load bulk data (lodbld).

Data warehouse tidak mungkin ada tanpa adanya proses ETL karena Proses ETL
merupakan suatu landasan dari sebuah data warehouse. Proses ETL ini sangat penting
karena sangat berperan terhadap kualitas data dalam data warehouse, sehingga data
warehouse nantinya dapat digunakan untuk keperluan business intelligence atau aktivitas
analisis yang lain. Dikatakan Sebuah proses ETL berjalan dengan benar, jika pada proses
itu melibatkan beberapa hal yaitu akan adanya proses mengekstraksi data dari sebuah
sumber, mempertahankan kualitas data tersebut, menerapkan aturan-aturan standar, dan
menyajikan data dalam berbagai bentuk, sehingga dapat digunakan dalam proses
pengambilan keputusan

3. Metode Penelitian
Metode yang diterapkan dalam penelitian yang dilakukan untuk membuat sistem ini yaitu
meliputi Interview, analisis, dan dilanjutkan dengan perancangan..
A. Interview
Interview dilakukan untuk mendapatkan data-data dan informasi yang sekiranya
dibutuhkan untuk membuat sistem. Interview atau wawancara dilakukan terhadap
pemilik toko elektronik neocool. Informasi dan data yang diperlukan meliputi
kebutuhan, permasalahan maupun keinginan pemilik toko elektronik neocool.
B. Analisis
Analisis dilakukan terhadap kondisi perusahaan, analisa kekuatan, kelemahan,
peluang, dan ancaman sehingga dapat diidentifikasi kebutuhan toko elektronik
neocool. Berdasarkan interview yang dilakukan terdapat beberapa kekurangan yang
masih menjadi permasalahan di toko tersebut, yaitu :
 Terjadi kesalahan dalam mendata barang masuk dan keluar karena barang belum
tersimpan secara komputerisasi
 Terjadi kekeliruan dalam pencatatan data pengiriman barang ke pelanggan.
 Pencatatan data pelanggan masih dilakukan secara manual sehingga sering
kehilngan data.
C. Perancangan
Perancangan data warehouse dengan penerapan skema bintang, termasuk rancangan
arsitekturnya. Skema bintang adalah suatu desain database yang paling sering
digunakan untuk merealisasikan sebuah data warehouse, memiliki struktur sederhana
dengan tabel-tabel yang relative dan penggabungan yang telah diketahui. Dengan kata
lain, merupakan sebuah struktur sederhana yang menghubungkan beberapa tabel
beserta masing-masing primary key-nya dan dirumuskan dengan baik sehingga
membentuk suatu tabel baru yang terdiri dari field-field dari tabel-tabel tersebut.

DAFTAR PUSTAKA
A, D. A. (2020). ETL (Extract Transform Load). Retrieved November 28, 2021, from Softbless solution:
https://www.softbless.com/etl-indonesia

Adani, M. R. (2021, April 5). Apa itu Data Warehouse dan Fungsinya untuk Perkembangan Bisnis.
Retrieved November 28, 2021, from sekawanmedia: https://www.sekawanmedia.co.id/data-
warehouse/

Ardana Putra, H. T. (2020). Pengembangan Gudang Data Pendukung Analisis Tren Penyewaan Peralatan
Katering dengan Algoritma Apriori. Journal of Information System and Technology, 5-14.

Choirul Huda, J. R. (2010). ANALISIS DAN PERANCANGAN DATA WAREHOUSE. Jurusan Teknologi
Informasi, Fakultas Ilmu Komputer, Bina Nusantara University, 461-476.

Erick Pineka, T. H. (2018, june 8). DATA WAREHOUSE VS BIG DATA. Retrieved November 28, 2021, from
mti.binus: https://mti.binus.ac.id/2018/06/08/data-warehouse-vs-big-data/

Handayani, M. T. (2021, October 22). Memahami Data Warehouse Dan Manfaatnya. Retrieved
November 28, 2021, from Ekrut: https://www.ekrut.com/media/data-warehouse-adalah

Riadi, M. (2019, December 19). Data Warehouse (Karakteristik, Komponen, Arsitektur dan Fungsi).
Retrieved November 28, 2021, from Kajian Pustaka:
https://www.kajianpustaka.com/2019/12/data-warehouse-karakteristik-komponen-arsitektur-
dan-fungsi.html

Anda mungkin juga menyukai