Lingkungan dari organisasi bisnis sudah mengalami banyak perubahan di abad ke-21. Dinamika
perubahan ini mau tidak mau memaksa organisasi bisnis untuk beradaptasi agar bisa
mempertahankan kelangsungan organisasinya.
Perubahan pada lingkungan bisnis dapat menjadi tekanan, karena perusahaan dituntut untuk
beradaptasi agar bisa tetap bertahan dalam industri bisnis. Apabila mereka kurang tanggap atau
terlambat dalam merespon perubahan yang ada, kelangsungan bisnis mereka menjadi terancam.
Nokia terlambat dalam menyikapi perubahan yang terjadi di pasar, di mana orang sudah mulai
beralih ke sistem operasi Symbian dan iOS yang sangat cepat perkembangannya. Pada masa
transisi itu, Nokia justru masih tetap bertahan dengan sistem operasi Symbian-nya, yang pada
akhirnya membuat mereka perlahan-lahan kalah bersaing dengan kompetitornya.
Demikian pula pada suatu organisasi, mereka harus bisa melihat gejala-gejala atau perubahan
yang terjadi pada lingkungan bisnisnya.
Kecerdasan Bisnis, atau dikenal secara luas dengan sebutan Business Intelligence (BI), pada
dasarnya merupakan evolusi dari sistem pendukung keputusan.
Secara umum, BI adalah sebuah payung istilah yang mengkombinasikan berbagai arsitektur,
teknik, analytical tools, aplikasi, dan metodologi yang memungkinkan kemudahan akses
terhadap data untuk membantu manajer melakukan analisis bisnis. BI membantu dalam
transformasi data, menjadi informasi (serta pengetahuan), kemudian menjadi keputusan dan
akhirnya menjadi tindakan.
Kapabilitas BI
Keterangan:
Istilah intelijen bisnis pertama kali digunakan oleh Hans Peter, seorang peneliti di IBM,
dalam sebuah artikel pada tahun 1958. Bisnis intelijen merupakan evolusi dari sistem
pendukung keputusan Decision Support Systems (DSS) yang dimulai pada tahun 1960 dan
dikembangkan pada tahun 1980-an . DSS berasal dari model dibantu komputer dibuat
untuk membantu pengambilan keputusan atau Executive Information Systems (EIS) dan
perencanaan. Dari DSS --> Data Warehouse --> Executive Information System (EIS) -->
OLAP dan akhirnya menjadi intelijen bisnis.
Decision Support System (DSS) bisa diterjemahkan sebagai Sistem Pendukung Keputusan
atau yang lebih dikenal dengan SPK. SPK merupakan sistem yang terkomputerisasi dalam
mengelola dan menganalisis data dengan mengunakan model, tujuannya untuk meyakinkan
(memperkuat) pemilihan keputusan.
Fungsi sistem pendukung keputusan seperti data warehouse, fungsi tersebut harus
dilakukan pada platform komputasi.
Pada dasarnya Data Warehouse (DW) adalah database, dan merupakan pusat data yang
dibentuk dari hasil penggabungan dan pengolahan data dari beragam sumber data.
Biasanya DW digunakan untuk keperluan pelaporan dan analisis data.
Defenisi DW:
Data Warehouse (DW) adalah sebuah repository fisik dimana data relasional dikelola untuk
menyediakan data yang berkualitas dengan standar format untuk skala enterprise. Data
warehouse merupakan kumpulan dari database yang terintegrasi dan berorientasi subjek
untuk menunjang fungsi DSS, dimana setiap unit data bersifat nonvolatile dan relevan pada
suatu momen waktu.
Menurut Inmon data warehouse adalah merupakan kumpulan data yang berorientasi
subyek, terintegrasi, tidak dapat di update, memiliki dimensi waktu, yang digunakan untuk
mendukung proses manajemen pengambilan keputusan dan kecerdasan bisnis. Berdasarkan
definisi tersebut, maka data warehouse memiliki karakteristik sebagai berikut :
1. Mengintegrasikan data organisasi dengan jumlah yang besar menjadi satu wadah
dimana pengguna dapat dengan mudah menjalankan query, membuat laporan serta
melakukan analisis.
2. Data warehouse menyediakan layanan sehingga kalangan bisnis dapat mengakses
data, yang sebenarnya rumit dan sulit dipahami, dengan cukup mudah.
3. Dengan adanya data warehouse, sebuah title customer dapat ditentukan mungkin
dari jumlah total pembelian atau faktor lainnya.
4. Untuk menyimpan data yang lama dengan akurat.
5. Slice and Dice data. Sebuah ketersediaan data detail dapat meningkatkan bisnis
analisis dengan mengurangi waktu dan usaha yang diperlukan untuk mengumpulkan
data kembali.
6. Memisahkan antara proses analisis dan operasional.
7. Mendukung re-engineering pada decisional process. Dengan sifatnya yang
memfokuskan pada pengambilan keputusan bisnis, data warehouse adalah sebuah
sistem yang ideal apabila diperlukan re-engineering pada proses pengambilan
keputusan bisnis.
1. Level operasional ---> Level ini khusus menyimpan data yang berorientasi pada
aplikasi secara detil dan diutamakan untuk memenuhi kebutuhan operasional. Akses
pada level ini umumnya memiliki frekuensi yang sangat tinggi, sering juga disebut
dengan OLTP (Online Transactional Processing).
2. Level integrasi --> Level ini menyimpan data historis yang terintegrasi serta
berorientasi subjek. Data pada level ini lebih sederhana daripada di level operasional
dan tidak dapat di-update
3. Level data mart --> Level ini dirancang sesuai dengan kebutuhan dari pengguna
dan merupakan data agregasi
4. Level individual --> Level ini merupakan tempat terjadinya analisis dan reporting.
Data pada level ini bersifat temporal, ad hoc, heuristic dan non retitif
Sumber data yang masuk ke dalam data warehouse dapat dikelompokkan ke dalam empat
kategori besar, sebagai berikut :
1. Production Data --> Kategori data ini berasal dari berbagai sistem operasional
perusahaan. Ini biasanya mencakup sistem keuangan, sistem manufaktur, sistem
supply chain, dan sistem manajemen hubungan pelanggan.
2. Internal Data --> Setiap organisasi, pengguna menyimpan spreadsheet "pribadi",
dokumen, profil pelanggan, dan terkadang bahkan database departemen. Ini adalah
data internal, bagian yang bisa berguna di data warehouse
3. Archived Data --> Disetiap sistem operasional, secara berkala dilakukan
pengambilan data lama dan menyimpannya di file arsip.
4. External Data --> Kebanyakan eksekutif atau top level management bergantung
pada data dari sumber eksternal dengan persentase tinggi untuk informasi yang
digunakan.
5. Data source. Data bersumber dari beberapa sistem operasional independen dan
mungkin dari penyedia data eksternal (seperti data sensus dari pemerintah). Data
mungkin juga berasal dari proses transaksi online (OLTP) atau sistem ERP. Data web
dalam bentuk log Web mungkin juga input sebuah data warehouse.
6. Data extraction and transformation. Data diekstraksi dan ditransformasikan
dengan benar menggunakan perangkat lunak yang ditulis khusus atau komersial
yang disebut ETL.
7. Data loading. Data dimasukkan ke area pementasan, di mana mereka
ditransformasikan dan dibersihkan. Data tersebut kemudian siap dimuat ke data
warehouse dan / atau data mart
8. Enterprise Data Warehouse (EDW). Sebuah data warehouse dengan skala
enterprise yang digunakan untuk mendukung pengambilan keputusan. Pada intinya,
EDW mendukung semua analisis keputusan dengan memberikan informasi terperinci
yang relevan yang berasal dari berbagai sumber.
9. Data mart adalah sebuah data warehouse yang lebih kecil (per departemen) yang
hanya menyimpan data yang relevan dengan area tertentu. Ada dua jenis data mart:
1) Dependent data mart, sebuah subset yang diturunkan langsung dari data
warehouse; 2) Independent data mart, sebuah data warehouse kecil yang khusus
didesain untuk suatu unit bisnis atau departemen
10. Operational data stores (ODS). Sebuah tipe database yang biasanya digunakan
sebagai penyimpanan sementara untuk data warehouse (short-term memory)
11. Metadata, data tentang data. Dalam data warehouse, metadata mendeskripsikan
konten dari data warehouse, membantu dalam mengkonversi data menjadi
informasi/pengetahuan
Data Warehouse (DW) adalah sebuah repository fisik dimana data relasional dikelola untuk
menyediakan data yang berkualitas dengan standar format untuk skala enterprise. Data
warehouse merupakan kumpulan dari database yang terintegrasi dan berorientasi subjek
untuk menunjang fungsi DSS, dimana setiap unit data bersifat nonvolatile dan relevan pada
suatu momen waktu.
Key Feature of DW
Banyak organisasi perlu membuat Data Warehouse yang digunakan untuk mendukung
keputusan. Ada dua pendekatan yang dapat digunakan dalam pengembangan DW.
Keunggulan DW:
Data Mart dan Data Warehouse sebenarnya memiliki fungsi yang serupa yaitu menyimpan
data, namun Data Mart merupakan bagian kecil dari Data Warehouse. Sekumpulan data
yang dibutuhkan oleh pengguna disimpan dalam Data Mart. Jika Data Warehouse
menyimpan seluruh data perusahaan, maka Data Mart hanya menyimpan sekumpulan data
pada suatu fungsi/divisi.
Tujuan dari Data Mart adalah untuk memenuhi kebutuhan informasi dari sekelompok
pengguna tertentu. Sebagai contoh, untuk manajer Human Resource Development (HRD),
data yang diperlukan adalah data yang berhubungan dengan HRD, misalnya absensi
pegawai, performa pegawai, dan lain sebagianya.
Setelah data warehouse terbentuk, informasi yang bisa diambil tentunya jauh lebih luasdan
lengkap. Pada data warehouse kemungkinan besar terjadi proses pembersihan data
(data cleansing) dan pengayaan data (content enrichment).
Dari data warehouse ini sering dibutuhkan subset data / informasi yang hanya dibutuhkan
oleh divisi:divisi tertentu. Dan kadang jauh lebih baik apabila secara fisik database ini
terpisah sendiri untuk divisi tersebut.
Komponen DW
Metadata
Metadata di DW
Pengenalan Metadata
TIPE-TIPE METADATA
1. OPERASI METADATA
2. EKSTRAKSI DAN TRANSFORMASI METADATA
3. END – USER METADATA
OPERASI METADATA
Terdiri dari semua informasi tentang data sumber
Proses:
Pilih data dari sistem sumber untuk data warehouse, pisah recordnya, gabungkan bagian
record dengan file sumber lainnya, dan berhasil dengan skema multiple coding dan panjang
field
EXTRAKSI DAN INFORMASI METADATA
Terdiri dari data dari data extraksi data dari sistem sumber, yaitu:
1. Extraction frequencies
2. Extraction method
3. Business rules untuk data extraction
END-USER METADATA
Adalah Peta Navigasi pada data warehouse
Ada 3 komponen:
1. Ekstraksi data
2. Transformasi data,
3. Loading data (ETL)
Tujuan dari proses ETL adalah mengisi data warehouse dengan data yang terintegrasi dan
bersih. Data yang digunakan dalam proses ETL dapat berasal dari sumber manapun: aplikasi
mainframe, aplikasi ERP, CRM, file flat, atau spreadsheet Excel.
Proses migrasi data ke data warehouse melibatkan ekstraksi data dari semua sumber yang
relevan. Sumber data dapat terdiri dari file yang diambil dari database OLTP, spreadsheet,
database pribadi (misalnya Microsoft Access), atau file eksternal. Biasanya, semua file input
ditulis ke satu set tabel staging, yang dirancang untuk memudahkan proses pemuatan.
Sebuah data warehouse berisi banyak aturan bisnis yang mendefinisikan hal-hal seperti
bagaimana data akan digunakan, aturan summarization, standardisasi atribut yang
dikodekan, dan aturan perhitungan. Setiap masalah kualitas data yang berkaitan dengan file
sumber perlu dikoreksi sebelum data dimasukkan ke dalam data warehouse
TIPE-TIPE METADATA
1. OPERASI METADATA
2. EKSTRAKSI DAN TRANSFORMASI METADATA
3. END – USER METADATA
OPERASI METADATA
Proses: Pilih data dari sistem sumber untuk data warehouse, pisah recordnya, gabungkan
bagian record dengan file sumber lainnya, dan berhasil dengan skema multiple coding dan
panjang field
1. Extraction frequencies
2. Extraction method
3. Business rules untuk data extraction
END-USER METADATA
Fungsi Metadata
Integrasi data terdiri dari tiga proses utama yang, ketika diterapkan dengan benar,
mengizinkan data diakses dari berbagai alat analisis ETL dan data warehouse: akses
data (yaitu kemampuan untuk mengakses dan mengekstrak data dari sumber
data), federasi data (yaitu integrasi pandangan bisnis di beberapa penyimpanan data),
dan perubahan (berdasarkan identifikasi, pengambilan, dan penyampaian dari
perubahan yang dilakukan pada sumber data perusahaan). Beberapa vendor, seperti
SAS Institute, Inc., telah mengembangkan alat integrasi data yang kuat. Integrasi data
perusahaan SAS mencakup perangkat integrasi data pelanggan yang meningkatkan kualitas
data dalam proses integrasi. Oracle Business Intelligence Suite membantu mengintegrasikan
data juga.
Berbagai teknologi integrasi yang memungkinkan integrasi data dan metadata yaitu:
Perangkat keras dan Sistem operasi menyusun lingkungan untuk data warehouse.
Semua penyaringan data, transformasi, integrasi, dan penjadwalan kerja dijalankan pada
hardware yang terpilih dan sistem operasi pilihan.
1. Skalabilitas
Data Warehouse tumbuh sangat cepat. Bersama perangkat keras dan perangkat lunak
database, sistem operasi harus dapat mendukung peningkatan jumlah pengguna dan
aplikasi
2. Dukungan/Support
3. Referensi Vendor
Penting untuk memeriksa referensi vendor dengan situs lain untuk menggunakan perangkat
keras dari vendor ini.
5. Keamanan/Security
Sistem operasi harus menyediakan lingkungan yang aman pada setiap client
6. Keandalan/Reliability
Sistem operasi harus dapat melindungi aplikasi dari malfungsi (tidak berfungsi).
7. Ketersediaan/ Availability
Ketersediaan ini adalah untuk keandalan. Lingkungan komputasi harus terus tersedia dari
keadaan aplikasi yang tidak normal.
8. Preemptive Multitasking
Perangkat keras server harus mampu menyeimbangkan alokasi waktu dan sumber daya di
antara banyak tugas/pekerjaan. Sistem operasi harus dapat memprioritaskan tugas yang
lebih tinggi atau menunggu tugas lain ketika diperlukan.
Sistem operasi harus dapat melayani beberapa permintaan secara bersamaan dengan
mendistribusikan ke beberapa prosesor dalam konfigurasi perangkat keras multiprosesor.
a. Mainframe
2. biasanya Sempurna
c. NT Server
Platform komputasi yang diperlukan untuk melakukan beberapa fungsi dari berbagai
komponen arsitektur data warehouse.
Fungsi sistem OLTP atau sistem pendukung keputusan seperti data warehouse, fungsi
tersebut harus dilakukan pada platform komputasi.
Berikut fungsi dan layanan komponen arsitektur di tiga bidang utama platform sebagai
berikut :
1. Data Acquisition : ekstraksi data, transformasi data, pembersihan data, integrasi data, dan
pementasan data.
3. Information Delivery : pembuatan laporan, pemrosesan queri, dan analisis yang kompleks.
1. Single Platform
a. Merupakan pilihan yang paling sederhana untuk implementasi arsitektur data warehouse
b. Semua fungsi dari backend penyaringan data pada front-end pengolahan query
dilakukan pada komputasi platform tunggal.
2. Hybrid Platform
Berdasarkan sistem warisan dan aplikasi yang lebih modern pada perusahaan, kemungkinan
besar akan memutuskan bahwa pendekatan Single-Platform tidak dapat dilakukan untuk
data warehouse.
Platform yang paling sesuai untuk staging area tergantung pada sumber status platform.
Pada platform komputasi mana saja langkah-langkah individu dari akuisisi data dan
penyimpanan data yang terjadi, data harus bergerak melintasi platform.
Meskipun platform mainframe dan komputer mini digunakan dalam penerapan awal data
warehouse, pada umumnya, wareouse saat ini dibangun menggunakan arsitektur
client/server. Sebagian besar adalah arsitektur client / server multitier
Hal yang harus dipertimbangkan saat konfigurasi untuk mesin workstation, harus disadari
bahwa perlu melayani berbagai jenis pengguna.
Defenisi Data
Data merupakan deskripsi dasar mengenai sesuatu, peristiwa, aktifitas, dan transaksi yang
dicatat, diklasifikasikan, dan disimpan tapi tidak terorganisasi dalam menghasilkan suatu makna
yang spesifik ( Rainer dan Cegielski (2011))
Database adalah sekumpulan data dan deskripsi dari data yang berhubungan secara logikal
didesain untuk memenuhi kebutuhan perusahaan. (Connolly dan Begg (2010))
Data multidimensional yaitu : data yang dapat dimodelkan sebagai atribut dimensi (dimension)
dan
3. Slicing dan dicing (pivoting) adalah menjabarkan pada kemampuan untuk melihat data dari
berbagai sudut pandang. Pivoting biasa dikenal dengan istilah cross tabulation, yaitu : sebuah
tabel dengan nilai sebuah atribut (A) membentuk judul baris dan atribut (B) membentuk judul
kolom, dan nilai masingmasing sel yang merupakan persilangan kedua atribut menyatakan nilai
perpaduan untuk kedua atribut.
Star Schema adalah alat dimana pemodelan dimensional berisi sebuah tabel fakta pusat.
Tabel fakta berisi atribut destkriptif yang digunakan untuk proses query dan foreign key
untuk menghubungkan
ke tabel dimensi. Atribut analisis keputusan terdiri dari ukuran performa, metrik operasional,
ukuran agregat, dan semua metrik yang lain yang di perlukan untuk menganalisis performa
organisasi.
Karakteristik Star Schema adalah sebagai berikut :
2. Fact table mempunyai sebuah nilai aggregate dari data-data yang berasal dari tabel
dimensi
6. Primary key pada tabel dimensi akan menjadi key pada fact table atau dapat diakatakan
bahwa fact table memiliki kombinasi key dari tabel dimensi tersebut.
1. Lebih simple
2. Mudah dipahami
Model snowflake merupakan perluasan dari star, yang sama-sama punya satu atau lebih
dimensi.
Pada snowflake, tabel yang berelasi pada fact table hanya tabel dimensi utama, sedangkan
tabel yang lain
dihubungkan pada tabel dimensi utama. Model snowflake ini hampir sama seperti teknik
normalisasi.
Cube adalah bagian utama dari OLAP. Cube berisi kumpulan banyak data yang telah
disatukan (di agregasi) sehingga mempercepat hasil query.
• Menggunakan ER Diagram
• Mendefinisikan atribute
• Membuat relasi
1. Saat Desain
2. Saat Implementasi
3. Saat Testing.
1 Saat Desain
Hal-hal yang perlu dipertimbangkan saat mendesain data warehouse antara lain :
3. Membuat database
7. Konstrain
8. Indeks
9. Partisi
11. Keamanan.
Hal-hal yang perlu dipertimbangkan saat melakukan testing data warehouse antara lain :
1. Dilakukan sebelum rilis produksi.
(manajemen).
a. Proses pengekstrakan data dari sumber data yang kemudian dimasukkan ke dalam
data warehouse.
b. Dilakukan secara periodik untuk kebutuhan bisnis dengan analisa data yang akurat.
a. Dimension adalah sebuah struktur yang terbentuk dari satu atau lebih hirarki yang
mengkategorisasi data.
Subyek data warehouse yang di buat adalah data warehouse yang menjadi data history
untuk di analisis.
4. Desain ETL
c. Melakukan proses ETL dengan menggunakan tools yang sesuai dan tepat.
Pada pembuatan cube, data warehouse yang terbentuk digunakan sebagai data source.
Tahapan pada pembuatan cube adalah sebagai
berikut :
Pada analisis data warehouse berikut ini adalah mengolah data warehouse dan
menyajikan data hasil analisis dalam bentuk OLAP dan pivot
table :
Menganalisis data dan struktur tabel pada database OLTP yang berelasi kemudian
direduksi atau menghapus
tabel (drop table). Hal ini dilakukan dengan pertimbangan untuk normalisasi tabel
sehingga tidak terjadi redudansi.
Akibat dari relasi tabel yang banyak, penggunaan field kunci pada tabel makin
sering. Maka dibuatlah satu tabel
dengan mendaftarkan field kunci tabel-tabel yang ada untuk kebutuhan relasi dan
meringkas statement query untuk akses data.
Membuat cube dalam bentuk star schema yang terdapat dalam fact table.
Tabulation).
1. Pemilihan Proses
Proses mengacu pada subjek masalah dari bagian data mart. Datamart yang akan
dibangun harus sesuai anggaran dan dapat
dibuat.
2. Pemilihan Grain
Pemilihan grain berarti menentukan secara tepat apa yang dipresentasikan oleh record
pada tabel fakta.
Pada tahap ini dilakukan penyesuaian dimensi dan grain yang ditampilkan dalam bentuk
matriks.
4. Pemilihan Fakta
kalkulasi awal.
Dalam tahap ini, kembali pada tabel dimensi dan menambahkan gambaran teks terhadap
dimensi yang memungkinkan. Gambaran
Pemilihan durasi data histori yang dimiliki oleh rumah sakit dapat dilakukan sesuai
dengan kebutuhan informasi. Umumnya semakin
banyak data yang dipindahkan ke dalam data warehouse semakin lengkap pula informasi
yang bisa dihasilkan. Perlu diperhatikan
pula tingkat durasi yang dimiliki oleh data histori dengan memperhatikan isi dan format
data yang ada. Jangan sampai data
Mengamati perubahan dari dimensi pada tabel dimensi dapat dilakukan dengan tiga
cara, yaitu mengganti secara langsung
pada tabel dimensi, membentuk record baru untuk setiap perubahan baru dan
perubahan data yang membentuk kolom
Konsep penambahan data mart architecture adalah penambahan data mart untuk
dikombinasikan dengan staging area. Implementasi konsep ini adalah dalam unit-unit
dalam suatu bidang yang berada dalam satu perusahaan yang memiliki data terintegrasi
dengan pusat sehingga setiap unit memiliki data mart yang berbeda sesuai kebutuhan. Data
mart dalam data warehouse dalam skala kecil.
Konsep penambahan data mart architecture adalah penambahan data mart untuk
dikombinasikan dengan staging area. Implementasi konsep ini adalah dalam unit-unit
dalam suatu bidang yang berada dalam satu perusahaan yang memiliki data terintegrasi
dengan pusat sehingga setiap unit memiliki data mart yang berbeda sesuai kebutuhan.
Data mart dalam data warehouse dalam skala kecil.
Subject Oriented
Data Warehose disusun berdasarkan subjek-subjek utama dalam perusahaan. Hal ini
menunjukkan bahwa data warehouse digunakan untuk menganalisis dan mengambil
keputusan terkait histori subjek-subjek utama tersebut, bukan digunakan untuk mendukung
aplikasi operasional.
Intergrated
Data dalam data warehouse berasal dari berbagai sumber yang terpisah. Data yang
dimasukkan ke dalam data warehouse akan diubah, disusun ulang, diurutkan, dan
dirangkum. Hal ini dilakukan untuk menjaga konsistensi data dalam data warehouse
sehingga tercipta suatu gambaran data yang terintegrasi dalam perusahaan.
Non Volatile
Data dalam data warehouse tidak di-update secara realtime tapi diperbaharui secara berkala
dari data operasional dalam jumlah data yang besar. Karakteristik data warehouse berbeda
dengan karakteristik operasional data yang dapat diubah. Data dalam data warehouse
hanya dapat loading data (mengambil data) dan mengakses data.
Time Variant
Setiap satuan data dalam data warehouse bersifat akurat dalam interval waktu tertentu.
Pada tiap record terdapat bentuk penanda waktu untuk menunjukkan kapan waktu suatu
record akurat. Misalnya, dilakukan time stamping atau pemberian tanggal transaksi untuk
tiap record.
Dalam (Setiawan, 2009) Enterprise Architecture (disingkat EA) yang merupakan salah satu
disiplin dalam TI memiliki definisi seperti:
c. Basis aset informasi strategis, yang menentukan misi, informasi dan teknologi yang
dibutuhkan untuk melaksanakan misi, dan proses transisi untuk mengimplementasikan
teknologi baru sebagai tanggapan terhadap perubahan kebutuhan misi.
e. Sehubungan dengan keempat komponen ini, produk EA adalah berupa grafik, model,
dan/atau narasi yang menjelaskan lingkungan dan rancangan enterprise
Terstruktur
Semi-terstruktur
Tidak terstruktur
Setelah itu Data akan melalui phase pengolahan data, pengubahan, dan perncernaan
sehingga pengguna dapat mengakses data yang diolah dalam storage dengan
menggunakan alat bantuan seperti :Business Intelligence, SQL client, dan spreadsheet.
Teknologi ini menggabungkan informasi dari sumber yang berbeda ke dalam satu basis
data yang komprehensif.
Operational Data Store, yang juga disebut ODS, ODS dibutuhkan untuk kebutuhan report
perusahaan, Gudang Data jenis ini akan di-refresh secara real time. Oleh karena itu jenis ini
lebih disukai untuk kegiatan rutin seperti menyimpan catatan karyawan.
3.Data Mart:
Data mart adalah bagian dari data warehouse. Data Mart dirancang khusus untuk bagian
tertentu bisnis, seperti penjualan, keuangan. Data Mart dapat mengumpulkan data langsung
dari sumbernya
Arsitektur infrastruktur
Infrastruktur data warehouse adalah software, hardware, pelatihan dan komponen-
komponen lainnya yang memberikan dukungan yang dibutuhkan untuk
mengimplementasikan data warehouse.
Data warehouse memiliki struktur yang spesifik dan mempunyai perbedaan dalam
tingkatan detail data dan umur data.
Current detail data merupakan data detil yang aktif saat ini,mencerminkan keadaan yang
sedang berjalan dan merupakan level terendah dalam data warehouse. Didalam area ini
warehouse menyimpan seluruh detail data yang terdapat pada skema basis data. Jumlah
data sangat besar sehingga memerlukan storage yang besar pula dan dapat diakses secara
cepat. Dampak negatif yang ditimbulkan adalah kerumitan untuk mengatur data menjadi
meningkat dan biaya yang diperlukan menjadi mahal.
Berikut ini beberapa alasan mengapa current detail data menjadi perhatian utama :
1. Menggambarkan kejadian yang baru terjadi dan selalu menjadi perhatian utama
2. Sangat banyak jumlahnya dan disimpan pada tingkat penyimpanan terendah.
3. Hampir selalu disimpan dalam storage karena cepat di akses tetapi mahal dan
kompleks dalam pengaturannya.
4. Bisa digunakan dalam membuat rekapitulasi sehingga current detail data harus akurat.
Data ini merupakan data historis dari current detail data, dapat berupa hasil cadangan atau
archive data yang disimpan dalam storage terpisah. Karena bersifat back-up(cadangan),
maka biasanya data disimpan dalam storage alternatif seperti tape-desk.
Data ini biasanya memilki tingkat frekuensi akses yang rendah. Penyusunan file atau
directory dari data ini di susun berdasarkan umur dari data yang bertujuan mempermudah
untuk pencarian atau pengaksesan kembali.
Lighlty summarized data
Data ini merupakan ringkasan atau rangkuman dari current detail data. Data ini dirangkum
berdasar periode atau dimensi lainnya sesuai dengan kebutuhan.
Ringkasan dari current detail data belum bersifat total summary.Data-data ini memiliki detil
tingkatan yang lebih tinggi dan mendukung kebutuhan warehouse pada tingkat
departemen. Tingkatan data ini di sebut juga dengan data mart. Akses terhadap data jenis
ini banyak digunakan untuk view suatu kondisi yang sedang atau sudah berjalan.
Data ini merupakan tingkat lanjutan dari Lightly summarized data, merupakan hasil
ringkasan yang bersifat totalitas, dapat di akses misal untuk melakukan analisis
perbandingan data berdasarkan urutan waktu tertentu dan analisis menggunakan data
multidimensi.
Metadata
Metadata bukan merupakan data hasil kegiatan seperti keempat jenis data diatas. Menurut
Poe, metadata adalah ‘data tentang data’ dan menyediakan informasi tentang struktur data
dan hubungan antara struktur data di dalam atau antara storage(tempat penyimpanan
data).
Metadata berisikan data yang menyimpan proses perpindahan data meliputi database
structure,contents,detail data dan summary data, matrics,versioning, aging
criteria,versioning, transformation criteria. Metadata khusus dan memegang peranan yang
sangat penting dalam data warehouse.
Struktur data
Sebuah direktori yang membantu user untuk melakukan analisis Decission Support System
dalam pencarian letak/lokasi dalam data warehouse.
Algoritma
Algoritma digunakan untuk summary data. Metadata sendiri merupakan panduan untuk
algoritma dalam melakukan pemrosesan summary data antara current detail data dengan
lightly summarized data dan antara lightly summarized data dengan hightly summaried
data.
Mapping
Sebagai panduan pemetaan(mapping) data pada saat data di transform/diubah dari lingkup
operasional menjadi lingkup data warehouse.
Menurut Kimball ada sembilan tahap metodologi dalam perancangan database untuk data
warehouse, yaitu :
Data mart yang pertama kali dibangun haruslah data mart yang dapat dikirim tepat
waktu dan dapat menjawab semua pertanyaan bisnis yang penting
Pilihan terbaik untuk data mart yang pertama adalah yang berhubungan dengan
sales, misal property sales, property leasing,property advertising.
Untuk memutuskan secara pasti apa yang diwakili atau direpresentasikan oleh
sebuah tabel fakta.
Misal, jika sumber dari sebuah tabel fakta properti sale adalah properti sale individual
maka sumber dari sebuah dimensi pelanggan berisi rincian pelanggan yang membeli
properti utama
Set dimensi yang dibangun dengan baik, memberikan kemudahan untuk memahami
dan menggunakan data mart
Dimensi ini penting untuk menggambarkan fakta-fakta yang terdapat pada tabel
fakta
Misal, setiap data pelanggan pada tabel dimensi pembeli dilengkapi dengan
id_pelanggan,no_pelanggan,tipe_pelanggan,tempat_ting gal, dan lain sebagainya.
Jika ada dimensi yang muncul pada dua data mart,kedua data mart tersebut harus
berdimensi sama,atau paling tidak salah satunya berupa subset matematis dari yang
lainnya.
Jika sebuah dimensi digunakan pada dua data mart atau lebih,dan dimensi ini tidak
disinkronisasi,maka keseluruhan data warehouse akan gagal, karena dua data mart
tidak bisa digunakan secara bersama-sama
Sumber dari sebuah tabel fakta menentukan fakta mana yang bisa digunakan dalam
data mart.
Semua fakta harus diekspresikan pada tingkat yang telah ditentukan oleh sumber
Langkah 5 : Menyimpan pre-kalkulasi di tabel fakta
o Tipe 3. Atribut dimensi yang telah berubah menimbulkan alternatif sehingga nilai atribut
lama dan yang baru dapat diakses secara bersama pada dimensi yang sama.
3. Pemilihan DBMS
Fase 1
Pengumpulan data dan analisa :
Fase 2
Perancangan database konseptual :
Tujuan dari fase ini adalah menghasilkan conceptual schema untuk database yang
tergantung pada sebuah DBMS yang spesifik. Sering menggunakan sebuah high-
level data model seperti ER/EER model selama fase ini. Dalam conceptual schema,
kita harus merinci aplikasi-aplikasi database yang diketahui dan transaksi-transaksi
yang mungkin.
Fase 3 :
Pemilihan DBMS
1. Struktur data
Jika data yang disimpan dalam database mengikuti struktur hirarki, maka suatu jenis hirarki
dari DBMS harus dipikirkan.
2. Personal yang telah terbiasa dengan suatu sistem Jika staf programmer dalam suatu
organisasi sudah terbiasa dengan suatu DBMS, maka hal ini dapat mengurangi biaya, latihan
dan waktu belajar.
Fase 4 :
Perancangan database secara logika (pemetaan model data)
Fase 5 :
Perancangan database fisik
Fase 6 :
Implementasi sistem database
Setelah perancangan secara logika dan secara fisik lengkap, kita dapat melaksanakan
sistem database. Perintah-perintah dalam DDL dan SDL(storage definition language)
dari DBMS yang dipilih, dihimpun dan digunakan untuk membuat skema database
dan file-file database (yang kosong) kemudian database tsb dimuat (disatukan)
dengan datanya.
Jika data harus dirubah dari sistem komputer sebelumnya, perubahan-perubahan
yang rutin mungkin diperlukan untuk format ulang datanya yang kemudian
dimasukkan ke database yang baru. Transaksi-transaksi database sekarang harus
dilaksanakan oleh para programmmer aplikasi.
Digunakan untuk menggambarkan suatu system yang telah ada atau system baru
yang akan dikembangkan secara logika.
ERD adalah suatu pemodelan dari basis data relasional yang didasarkan atas persepsi
didalam dunia nyata, Suatu objek disebut entity dan hubungan yang dimilikinya
disebut relationship.
Perhatikan file – file digital yang berbeda di komputer anda, mulai dari file audio seperti
mp3, file gambar jpg, file dokumen. Doc dan seterusnya, semuanya memiliki informasi
metadata di dalamnya. Contoh metadata yang mudah anda lihat terdapat pada halaman
website, misalnya jika anda sedang membuka halaman amazon.com pada browser,
klik kanan browser, dan pilih menu view page source maka akan terbuka tab baru. Terlihat
pada baris – baris, tertentu terdapat tag <meta> yang berisi beberapa data.
Tanpa melihat source html, data ini tidak terlihat oleh user saat melihat halaman yang
bersangkutan. Namun, data ini terlihat dan diproses oleh aplikasi seperti browser, search
engine, ataupun web service. Konsepnya yang sama berlaku untuk file digital lainnya,
misalnya pada file audio mp3 juga terdapat metadata yang tidak terlihat user namun
dikenali dan diproses oleh aplikasi multimedia.
1. Metadata deskriptif
Metadata deskriptif adalah metadata yang mampu mengidentifikasi dan mendeskripsikan
sumber informasi. Biasanya, metadata deskriptif digunakan untuk mencari dan menyeleksi
sumber. Jenis metadata ini sering ditemukan pada laman sebuah situs dan mencakup
informasi seperti judul, pengarang, kata kunci, tahun terbit, tag, dan lain-lainnya yang
memudahkan pengguna mencari suatu konten.
2. Metadata struktural
Metadata struktural merupakan jenis metadata yang berguna untuk menyatukan objek
digital menjadi kesatuan yang terstruktur dan terhubung satu sama lain. Sebagai contoh,
jika ada buku digital yang terbagi menjadi beberapa bab dan halaman, metadata struktural
dapat mengetahui hubungan atau sinkronisasi antarhalaman bagian buku tersebut dan
urutan babnya. Dengan metadata struktural, sistem mampu menampilkan daftar isi dan
memudahkan kita menemukan suatu bagian hanya dengan meng-klik halaman atau bab
yang kita inginkan.
3. Metadata administratif
Ada beberapa bagian metadata administratif, yaitu metadata right management dan
metadata preservasi.
Metadata right management adalah metadata yang berfungsi memberikan informasi
tentang kekayaan intelektual atau hak cipta, seperti lisensi.
Sementara itu, metadata preservasi berguna untuk melestarikan sumber informasi
untuk pengarsipan
Business Metadata adalah metadata yang digunakan oleh end user digunakan untuk
mengerti informasi apa saja yang ada di dalam datawarehouse. Tampilan ke user ini
biasanya berbeda dengan milik orang IT, ketika orang IT bisa melakukan semua
dengan SQL Command maka user bisa tidak mengerti hal tersebut sehingga
metadata business juga memberikan cara untuk menampilkan ke user dengan cara
yang biasa mereka lihat seperti ditampilkan dalam bentuk excel. Termasuk cara
membaca data tersebut sehingga user bisa mengambil informasi sebanyak mungkin
dan bisa mengambil keputusan dengan tepat.
Metadata juga mencatat aplikasi yang digunakan untuk mengolah data, seperti data
mining dan kegunaan data tersebut setelah dilakukan mining apa. Sehingga ketika
ada orang yang mau menggunakan datawarehouse mereka dapat menggunakan
metadata untuk mempelajari mengenai datawarehouse dan informasi apa yang
dibutuhkan. Kemudian saat mereka ingin menambah fitur baru maka metadata dapat
mencegah redudansi dan bisa menambahkan fitur yang ditambahkan ke dalam
metadata bila belum pernah dibuat. Selain itu juga mesti dilihat trend-trend baru
dalam metadata seperti pengunaan video, gambar dan bentuk format lainnya. Untuk
membangun metadata pastikan ada konsistensi dalam format sehingga orang tidak
bingung dalam mengakses dan pastikan orang mengerti dalam
membaca/menggunakan metadata.
Metadata sebenarnya juga mencatat aturan dalam pengaksesan database seperti
username dan password dan siapa yang memegang username password tersebut.
Tapi hal ini berupa rahasia dan hanya orang tertentu saja yang memilikinya, pastikan
username dan password hanya tercatat siapa yang memilikinya. Pertama ini adalah
masalah keamanan di dalam data. Kedua, masalah integritas dari data yang dimiliki.
Jadi bila ada perubahan data yang tidak wajar kita bisa melacak dengan mudah.
Jadi hasil akhir dari metadata akan seperti user manual. Step-by-Step dari data
mentah hingga jadi sebuah informasi. Berbentuk seperti artikel clustering ini atau
menjalankan menggunakan ETL.
Technical metada adalah metadata yang digunakan oleh datawarehouse designer dan
juga datawarehouse administrator. Bentuknya seperti DBMS yang digunakan, cara
akses data, sumber data dan aturan-aturan dalam pengambilan data.
Interoperability adalah kemampuan beberapa sistem dengan hardware dan software yang
berbeda, struktur data dan tampilan data luarnya dengan kehilangan minimal dari isi dan
fungsinya. Cara kerjanya dengan mendefinisikan skema metadata, membagi transfer
protokol, dan alur lintas antara skema dan sumber informasi agar lebih cepat.
Segala bentuk sumber informasi memiliki kerentanan masing-masing, oleh karena itu
dengan adanya fungsi metadata sebagai pengarsipan dan preservasi membawa informasi
kebutuhan perawatan sumber informasi. Selain itu, informasi dalam metadata bisa menjadi
penanda bagi kebutuhan preservasi sumber informasi tertera.
Tujuan dari Dimensional Modelling ini adalah untuk mempresentasikan suatu set
pengukuran bisnis dalam kerangka standar sehingga dapat lebih mudah dipahami oleh
end user. Dimesional Model berisi informasi yang mirip dengan ER Model akan tetapi data
dalam format symmetric yang didesain untuk :
- User Understanability
- Query Performance
- Resilience to Change
Komponen utama dari Dimensional Modelling ini adalah tabel fakta dan tabel dimensi.
Tabel fakta adalah primary tabel yang dalam beberapa dimensi model yang dimaksudkan
untuk pengukuran suatu bisnis.
Suatu fakta bergantung pada beberapa factor, sebagai contoh sale amount, suatu fakta,
yang bergantung pada produk, lokasi dan waktu. Factor factor ini adalah yang disebut
dengan dimensi.
Data warehouse dan OLAP dibangun berdasarkan multidimensional data model. Pada
model ini diperlukan tabel fakta dan tabel dimensi. Tabel fakta berisi fakta numerik yang
memiliki ciri-ciri : panjang, kurus, dan besar, serta sering berubah dan berguna untuk
mengukur (measure). Sedangkan tabel dimensi berisi kolom yang bersifat desktiptif, kecil,
pendek, dan lebar yang berguna untuk filtering (menyaring) dan didasarkan pada atribut
dimensi.
Pemodelan data warehouse dapat dilakukan dengan teknik, yaitu pemodelan Entity
Relationship, pemodelan dimensional, dan pemodelan data vault.
Pengertian skema bintang menurut Connolly (2010), adalah model data dimensional yang
mempunyai sebuah tabel fakta yang berisi data fakta ditengah dan dikelilingi oleh tabel-
tabel dimensi yang terdiri dari data referensi (yang biasanya dapat di denormalisasi). Skema
bintang mengambil karakteristik dari data fakta yang di-generate oleh event yang terjadi
dimasa lampau. Menurut Poe (1996), skema bintang adalah metode perancangan yang
dilakukan dengan struktur sederhana.
1. Efisiensi (Efficiency)
Struktur basis data yang konsisten sehingga lebih efisiensi dalam akses data dengan
menggunakan alat untuk menampilkan data seperti laporan tertulis dan kueri.
3. Extensibility
Model dimensional dapat dikembangkan, misalnya menambahkan tabel fakta selama data
masih konsisten, kemudian menambahkan dimensi baru selama ada nilai tunggal dari
dimensi tersebut yang mendefinisikan untuk setiap record tabel fakta yang ada,
menambahkan atribut pada dimensi baru dan memecah record tabel dimensi yang ada
menjadi level atau tingkat yang lebih rendah dari level sebelumnya.
4. Kemampuan untuk menggambarkan situasi bisnis (Ability to model common business
situations), pendekatan standar untuk menangani situasi pemodelan dalam dunia bisnis,
dimana dalam situasi ini memiliki perangkat program yang dapat secara khusus
menspesifikasikan ke dalam penulisan laporan kueri dan antar pengguna yang lainnya.
5. Proses kueri yang dapat diprediksi (Predictable query processing), aplikasi gudang data
yang mencari data dari level dibawahnya akan dengan mudah menambah jumlah atribut
pada tabel dimensi dari skema bintang. Aplikasi yang mencari data dari level yang setara
akan menghubungkan tabel fakta yang terpisah melalui tabel dimensi yang dapat diakses
bersama.
Selain kelebihan dari skema bintang diatas, ada beberapa kekurangan bila menggunakan
skema bintang, diantaranya adalah:
4. Long time loading dimension table, dalam loading pada tabel dimensi dibutuhkan
waktu yang cukup lama, ketika data yang dimiliki rendah dalam integritas dan nilai
dalam replika tinggi maka waktu untuk melakukan loading menjadi meningkat.
5. Skema bintang tidak fleksibel dalam hal kebutuhan analisis, seperti model data
yang dinormalisasi (jika data yang dibutuhkan melakukan normalisasi). Skema
bintang dibangun hanya untuk kebutuhan data tertentu, sehingga tidak benar-
benar memungkinkan analisis yang lebih kompleks.
Menurut Connoly (2002), skema butiran salju (Snowflake Schema) merupakan bentuk lain
dari
skema bintang (Start) dimana data dalam tabel dimensi belum dinormalisasi.
Ciri-ciri dari skema butiran salju adalah :
2. Setiap dimensi mempunyai satu kunci (key) untuk setiap level pada hirarki dimensi.
3. Kunci level terendah menghubungkan tabel dimensi dengan tabel fakta dan tabel atribut
berlevel
rendah
2. Sebagai kebutuhan dari alat pengambil keputusan tingkat tinggi dimana dengan tipe
yang seperti ini seluruh struktur dapat digunakan sepenuhnya.
3. Banyak yang beranggapan lebih nyaman merancang dalam bentuk normal ketiga.
2. Memiliki masalah besar dalam hal (performance) atau kinerja untuk melakukan kueri, hal
ini disebabkan karena semakin banyaknya join antar tabel-tabel yang dilakukan dalam
skema snowflake maka semakin lambat kinerja yang dilakukan
Entity Relationship Diagram (ERD) adalah sekumpulan cara atau peralatan untuk
mendeskripsikan data-data atau objek-objek yang dibuat berdasarkan dan berasal dari
dunia nyata yang disebut entitas (entity) serta hubungan (relationship) antar entitas-entitas
tersebut dengan menggunakan beberapa notasi
Seperti yang telah dijabarkan sebelumnya, ERD digunakan untuk menggambarkan database
untuk pemrosesan transaksi online atau Online Transaction Processing (OLTP), sedangkan
dimensional model digunakan untuk mendesain database dalam data warehouse. Berikut ini
merupakan perbandingan antara OLTP dengan data warehouse.
Dari tabel diatas dapat diketahui bahwa ERD digunakan untuk memodelkan datadata yang
bersifat transaksional. Sedangkan dimensional model lebih dimanfaatkan untuk
memodelkan data-data yang akan digunakan untuk menunjang pengambilan keputusanDM
adalah teknik Logical Design untuk menampilkan data dalam framework standard yang
intuitif dan memungkinkan access data dengan performa yang tinggi. Berbicara mengenai
DM tidak bisa dipisahkan dari teknik Dimensional yang menggunakan Rasional Model
namun dengan beberapa batasan penting.
Setiap DM terdiri atas satu tabel dengan banyak Foreign Key yang disebut Facs Table dan
satu set tabel yang lebih kecil yang disebut Dimension Table, setiap Dimension Table
mempunyai satu bagian Primary Key yang terhubung dengan tepat pada salah satu Foreign
Key dari beberapa Key pada tabel Facs tersebut. (lihat gambar dibawah)
Karakteristik pada gambar tersebut yang seperti struktur bintang biasa disebut dengan Star-
Schema. Dengan demikian dapat dikatakan bahwa Star-Schema adalah teknik Data
Modeling yang digunakan untuk memetakan Multi Dimensional Diecission Support pada
suatu database relasional.
Hubungan antara Fact Table dan Dimension Table tidak lagi menggunakan Natural Key atau
Key yang dipakai di Legacy sistem, tetapi menggunakan Key Pengganti atau biasa disebut
Surrogate Key. Alasannya antara lain:
Karena Data pada Data Warehouse tidak boleh di update (Non Volatile) sedangkan Key
pada Legacy karena tuntutan bisnis bisa saja suatu saat berubah. Untuk menjaga
performance yang tinggi Surrogate Key dibuat sesederhana mungkin yaitu cuma satu field
dan bertipe Numeric dari Running Number yang dihitung dari ETL Program atau dari tipe
data pada Data Base nya sendiri.
Komponen-komponent Star-Schema:
1. Fact
2. Dimensions
3. Attributes
4. Attribute Hierarchie
5. Granularity
Penjelasan masing-masing komponen Star-Schema diatas adalah sebagai berikut:
1. Fact
Fact adalah suatu angka dari pengukuran yang menunjukkan aspek tertentu dari suatu
bisnis atau suatu aktivtas . Fact Table berisi beberapa fakta yang terhubung dengan masing-
masing Dimension nya. Fact dapat berupa nilai yang telah ada atau baru diturunkan pada
saat Run-time.
2.Dimensions
3. Attributes
Setiap tabel dimensi mempunyai Attributes. Attributes sering dipakai pada operasi Search,
Filter, atau Grouping dari suatu Fact. Dimensions menyediakan karakteristik deskriptif
(uraian) tentang Fact lewat Attribut nya.
waktu penjualan.
4. Attribute Hierarchies
– Aggregation
5. Granularity
Granularity adalah salah satu aspek terpenting dalam desain Data Waehouse karena
menentukan volume data yang akan disimpan dalam Data Warehouse dan
menentukan kedalam detail Query yang bisa dijalankan. Secara ekstrem ada Lowest Grain
(Grain terendah) dan Highest Grain (Grain tertinggi). Lowest Grain menyimpan transaksi di
level detail (Atomic Transaction) sedangkan Highest Grain menyimpan data hanya dilevel
Enterprise atau level Perusahaan (Summary Transaction) Level dari Granularity disimpan
pada Hirarchy suatu Dimension.
ETL adalah sekumpulan proses integrasi data yang harus dilalui dalam pembentukan data
warehouse. ETL bertujuan untuk mengumpulkan, menyaring, mengolah dan
menggabungkan datadata yang relevan dari berbagai sumber untuk disimpan ke
dalam data warehouse. Sesuai dari Namanya proses ETL sendiri terdiri
dari extracting, transforming, loading
Dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data
yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan
memiliki struktur yang dirancang untuk keperluan proses analisis. Proses ETL terdiri dari tiga
tahap, yaitu :
1. Extraction
Langkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih
sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari
sumber data di luar system database). Kebanyakan proyek data warehouse menggabungkan
data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses
penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau
struktur data yang diinginkan. Terdapat beberapa fungsi ekstraksi data, yaitu :
2. Transformation
Proses transformasi data merupakan proses mengubah data dari format operasional
menjadi format data warehouse. Proses transformasi berupa tugas-tugas seperti
mengkonversi tipe data, melakukan beberapa perhitungan, penyaringan data yang tidak
relevan, dan meringkasnya. Proses transformasi dibutuhkan untuk memenuhi kebutuhan
bisnis suatu perusahaan. Langkah-langkah dalam transformasi data adalah sebagai berikut :
Memetakan data input dari skema data aslinya ke skema data warehouse.
Melakukan konversi tipe data atau format data.
Pembersihan serta pembuangan duplikasi dan kesalahan data.
Penghitungan nilai-nilai derivat atau mula-mula.
Penghitungan nilai-nilai agregat atau rangkuman.
Pemerikasaan integritas referensi data.
Pengisian nilai-nilai kosong dengan nilai default.
Penggabungan data.
3. Loading
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam
target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti
atau menambah data tergantung pada perancangan data warehouse pada waktu
menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint
didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu
melakukan load data (contohnya : uniqueness,referential, integrity, mandatory fields), yang
juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.
Untuk mengintegrasikan data maka kita harus menggunakan tools, apakah dari tools open
source atau atau yang berbayar. Kali ini kita tidak akan menggunakan tools yang berbayar,
tetapi menggunakan tools yang bersifat open source: Apache Kafka merupakan salah satu
aplikasi message service/broker atau publish subscribe yang paling banyak digunakan saat
ini.
Belakangan ini kafka sendiri sudah menambahkan fitur streaming kedalam platformnya.
Kafka sekarang berada pada naungan apache yang artinya bahwa kafka merupakan sebuah
platform yang open source.
Selain itu, tugas utama kafka yaitu menggunakannya untuk membangun pipeline dan
aplikasi data streaming dengan real-time, dan menjalankannya sebagai cluster pada satu
atau beberapa server yang dapat menjangkau lebih dari satu pusat data.
Kafka kluster menyimpan stream record dalam kategori yang berupa topik, dan setiap
record terdiri dari key, value, dan timestamp.
Apache Nifi adalah perangkat lunak sumber terbuka (open source) untuk mengotomatisasi
dan mengelola aliran data antar sistem. Sangat handal dalam memproses dan
mendistribusikan data. Selain itu penggunaannya lebih mudah karena tersedia user
interface berbasis web untuk membuat, memantau, dan mengendalikan aliran data. Pentaho
adalah kumpulan aplikasi Business Intelligence (BI) yang berkembang dengan pesat dan
bersifat free open source software (FOSS) yang berjalan di atas platform Java.
Sedangkan Pentaho Data Integration adalah software dari Pentaho berguna untuk proses
ETL (Extraction, Transformation dan Loading).
Adapun penggunaan PDI yaitu untuk migrasi data, membersihkan data, loading dari file ke
database atau sebaliknya dalam volume besar. PDI menyediakan graphical user interface
dan drag-drop komponen yang memudahkan user. Biasanya Talend digunakan untuk
integrasi antara sistem operasional, ETL (extract, transform dan load), dan migrasi data oleh
beberapa sumber.
Selain itu, Talend akan membantu Anda dalam mengelola semua aspek dari tahap ekstraksi
data, transformasi data, dan loading data secara efisien dan efektif.
Talend sudah lengkap dengan beberapa fitur seperti berikut ini :
Memudahkan pemodelan data dengan menggunakan desain tool secara drag and
drop
Terdapat lebih dari 900 komponen yang dapat menghubungkan semua sumber data
Manipulasi String
Penanganan Lookup Otomatis
Kemampuan untuk menjalankan extract, transform dan load
Talend Data Integration mencakup fitur untuk berbagai perusahaan seperti load balancing,
automatic failover, dan tools untuk kolaborasi antar tim, serta dukungan teknis round-the-
clock dari para ahli integrasi data pada aplikasi Talend ini. Aktivitas-aktivitas dalam
mendesain ETL (Extract-Transform-Load) tidak harus dilakukan secara linear. Gambar
di atas menunjukkan aktivitas mana saja yang dapat dilakukan secara bersamaan.
Beberapa pendapat para pakar tentang definisi Bussiness Intelligence (BI) adalah :
1. Bussiness Intelligence (BI) merupakan seperangkat solusi sistem informasi yang dapat
menuntun kepada percepatan pengambilan keputusan dalam tingkat akurasi yang tinggi
(Thia, 2011). BI dapat didefinisikan sebagai kemampuan perusahaan untuk memahami dan
menggunakan informasi dalam rangka meningkatkan kinerja (Curko, 2008). Dapat
disimpulkan bahwa BI menjelaskan tentang suatu teknologi mengkonversi data berdasarkan
sistem yang berbasiskan data menghasilkan informasi yang tepat waktu untuk
meningkatkan kualitas pengambilan keputusan bisnis.
Selanjutnya data di data warehouse diproses menggunakan berbagai analisis statistik dalam
proses data mining, sehingga didapat berbagai kecenderungan atau pattern dari data. Hasil
penyederhanaan dan peringkasan ini disajikan kepada end user yang biasanya merupakan
pengambil keputusan bisnis. Dengan demikian manajemen dapat mengambil keputusan
berdasarkan fakta-fakta aktual, dan tidak hanya mengandalkan intuisi dan pengalaman
kuantitatif saja (Imelda, 2013). Business Intelligence menjelaskan tentang suatu konsep dan
metode bagiamana untuk meningkatkan kualitas pengambilan keputusan bisnis
berdasarkan sistem yang berbasiskan data.
BI seringkali dipersamakan sebagaimana briefing books, report and query tools, dan sistem
informasi eksekutif. BI merupakan sistem pendukung pengambilan keputusan yang
berbasiskan data-data (Power, 2002). Business Intelligence adalah alat analisis yang
digunakan untuk mengkonsolidasikan data, menganalisis, menyimpan dan mengakses
banyak data untuk membantu dalam pembuatan keputusan, seperti perangkat lunak untuk
query database dan pelaporan, alat untuk analisis data multidimensi, dan data mining
(Laudon, Kenneth C, Jane P., 2008).
4. Steve and Nancy Williams “The Profit Impact of Business Intelligence” (2007) : Bussiness
Inteligent as business information and business analyses within the context of key business
processes that lead to decisions and actions and that result in improved business
performance. In particular, BI means leveraging information assets within key business
processes to achieve improved business performance.
5. SIB yang sebagaimana oleh Powers (2002) : “Business Intelligence System menjelaskan
tentang suatu konsep dan metode bagaimana untuk meningkatkan kualitas pengambilan
keputusan bisnis berdasarkan sistem yang berbasiskan data. Bussiness Inteligent seringkali
dipersamakan sebagaimana briefing books, report and query tools, dan sistem informasi
eksekutif. Bussiness Inteligent merupakan sistem pendukung pengambilan keputusan yang
berbasiskan data-data”.
Menurut Steadman (2003) Beberapa manfaat yang bisa didapatkan bila suatu organisasi
mengimplementasikan SIB antara lain :
1. Meningkatkan nilai data dan informasi organisasi. Melalui pembangunan BI, maka
seluruh data dan informasi dapat diintegrasikan sedemikian rupa sehingga
menghasilkan dasar pengambilan keputusan yang lengkap. Informasi-informasi yang
dulunya tidak dicakupkan sebagai salah satu faktor pengambilan keputusan
(terisolasi) dapat dengan mudah dilakukan ‘connect and combine’ dengan
menggunakan BI. Data dan informasi yang dihasilkan pun juga menjadi lebih mudah
diakses dan lebih mudah untuk dimengerti (friendly-users infos).
2. Memudahkan pemantauan kinerja organisasi. Dalam mengukur kinerja suatu
organisasi seringkali dipergunakan ukuran yang disebut Key Performance Indicator
(KPI). KPI tidak melulu diukur dengan satuan uang, namun dapat juga berdasarkan
kecepatan pelaksanaan suatu layanan.
3. Meningkatkan nilai investasi Teknologi Informasi (TI) yang sudah ada. SIB tidak
perlu/harus mengubah atau menggantikan sistem informasi yang sudah digunakan
sebelumnya. Sebaliknya, SIB hanya menambahkan layanan pada sistem-sistem
tersebut sehingga data dan informasi yang sudah ada dapat menghasilkan informasi
yang komprehensif dan memiliki kegunaan yang lebih baik.
4. Menciptakan pegawai yang memiliki akses informasi yang baik (well-informed
workers). Dalam melaksanakan pekerjaannya sehari-hari, seluruh level dari suatu
organisasi (mulai dari pegawai/bawahan sampai dengan pimpinan) selalu berkaitan
dan/atau membutuhkan akses data dan informasi. BI mempermudah seluruh level
pegawai dalam mengakses data dan informasi yang diperlukan sehingga membantu
membuat suatu keputusan. Jika kondisi seperti ini tercapai, maka misi dan strategi
organisasi yang sudah ditetapkan dapat dengan lebih mudah terlaksana serta
terpantau tingkat pencapaiannya.
5. Meningkatkan efisiensi biaya. BI dapat meningkatkan efisiensi karena mempermudah
seseorang dalam melakukan pekerjaan : hemat waktu dan mudah pemanfaatannya.
Waktu yang dibutuhkan untuk mencari data dan mendapatkan informasi yang
dibutuhkan menjadi semakin singkat dan cara untuk mendapatkannya pun tidak
memerlukan pengetahuan (training) yang rumit.
1. Top-down Approach
Kelebihan dari pendekatan ini yaitu : Pembangunan SIB langsung mencakup data seluruh
organisasi, Kerangka SIB akan lebih terstruktur, bukan gabungan dari berbagai data mart
(data parsial), Penyimpanan data menjadi terpusat dan Kontrol informasi dapat dilakukan
secara tersentralisasi. Adapun kelemahan pendekatan ini yang harus diantisiapasi
diantaranya: Waktu implementasi lebih lama, Risiko kegagalan relatif tinggi karena
kerumitannya dan Membutuhkan biaya yang relatif besar.
2. Bottom-up Approach
Kebalikan dengan pendekatan sebelumnya, dalam pendekatan bottom-up SIB yang akan
disusun justru dari tingkat departemental (departement data warehouse) baru kemudian
diintegrasikan menjadi data warehouse organisasi secra keseluruhan. Pendekatan ini sangat
tepat bagi kebutuhan suatu organisasi yang memprioritaskan pembangunan BI di suatu
departemen terlebih dahulu. Kemudian setelah sukses di departemen tersebut akan
dilanjutkan de departemen lain.
Kelebihan dari pendekatan ini antara lain: Implementasi lebih mudah untuk dikelola, Risiko
kegagalan relatif lebih kecil, Bersifat incremental, dimana data mart yang penting dapat
dijadwalkan lebih awal dan Memungkinkan anggota tim proyek untuk belajar dengan baik.
Kelemahan pendekatan ini yang harus diantisiapasi yaitu: Tiap data mart merupakan
departmental-view, Memungkinkan terjadinya duplikasi data di setiap data mart di masing-
masing departemen, Data tidak konsisten dan data sulit direkonsiliasi dan Terdapat banyak
interface yang sulit.
3. Practical Approach.
Pendekatan ini mengkombinasikan ke-dua pendekatan sebelumnya untuk mendapatkan
kelebihannya. Dalam pendekatan ini, pengembangan SIB di suatu organisasi akan dimulai
dengan perencanaan dan pendefinisian arsitektur kebutuhan data warehouse organisasi
secara keseluruhan (standardisasi). Baru kemudian akan dilakukan serangkaian pembuatan
SIB pada tiap departemen yang membutuhkan. Sering kali kita mendengar istilah intelijen
bisnis atau lebih terkenal dengan Bussiness Intelligence( BI ). Intelijen bisnis sebenarnya
merupakan pengolahan data yang khusus untuk informasi bisnis. Intelijen bisnis mempunyai
komponen berupa seperangkat teori, metodologi, proses, arsitektur, dan teknologi yang
mampu mengubah data mentah menjadi informasi yang bermakna dan berguna untuk
tujuan bisnis. Intelijen bisnis dapat menangani sejumlah besar informasi untuk membantu
mengidentifikasi dan mengembangkan peluang baru dalam dunia bisnis. Dengan
memanfaatkan intelijen bisnis, kita akan bisa mendapatkan peluang baru dan menerapkan
strategi yang efektif sehingga mampu menghasilkan keuntungan pasar kompetitif dan
stabilitas jangka panjang.
Istilah intelijen bisnis pertama kali digunakan oleh Hans Peter, seorang peneliti di IBM,
dalam sebuah artikel pada tahun 1958. Bisnis intelijen merupakan evolusi dari sistem
pendukung keputusan Decision Support Systems (DSS) yang dimulai pada tahun 1960 dan
dikembangkan pada tahun 1980-an . DSS berasal dari model dibantu komputer dibuat
untuk membantu pengambilan keputusan atau Executive Information Systems (EIS) dan
perencanaan. Dari DSS, Data Warehouse, Executive Information System (EIS), OLAP dan
akhirnya menjadi intelijen bisnis. Suatu metamorfosa yang hebat.
Pada tahun 1989, Howard Dresner, seorang analis Gartner Group, mengusulkan agar istilah
intelijen bisnis dipakai untuk menggambarkan konsep dan metode untuk meningkatkan
pengambilan keputusan bisnis dengan menggunakan sistem pendukung berbasis fakta.
Pada akhir tahun 1990, Bussiness Intelligence menjadi berkembang demikian pesat.
Seringkali aplikasi Bussiness Intelligence menggunakan data yang dikumpulkan dari data
warehouse atau data mart . Sebuah gudang data adalah salinan dari data transaksional yang
memfasilitasi dukungan keputusan. Namun, tidak semua gudang data yang digunakan
untuk intelijen bisnis, juga tidak semua aplikasi bisnis intelijen memerlukan data warehouse.
Dalam rangka mendorong nilai bisnis, Bisnis intelijen dapat diterapkan untuk tujuan bisnis
berikut:
1 . Pengukuran
Aplikasi/program yang mampu menciptakan hirarki metrik kinerja dan benchmarking yang
menginformasikan pemimpin bisnis tentang kemajuan menuju tujuan bisnis.
2 . Analytics
Aplikasi/program yang mampu membangun proses kuantitatif untuk bisnis untuk sampai
pada keputusan yang optimal dan untuk melakukan bisnis penemuan pengetahuan. Pada
proses analisis ini, sering melibatkan : data mining, data proccess, analisis statistik, analisis
prediktif, pemodelan prediktif, pemodelan proses bisnis, pengolahan informasi kompleks
dan analisis preskriptif .
3 . Pelaporan
Aplikasi/program yang mampu membangun infrastruktur untuk pelaporan strategis untuk
melayani manajemen strategis bisnis, bukan pelaporan operasional. Sering melibatkan
visualisasi data, sistem informasi eksekutif dan OLAP .
4 . Kolaborasi/platform kolaborasi
Aplikasi/program yang mampu mendapat area yang berbeda (baik di dalam dan di luar
bisnis) untuk bekerja sama melalui berbagi data dan pertukaran data elektronik .
5 . Pengetahuan manajemen
Aplikasi/program yang mampu membuat data perusahaan didorong melalui strategi dan
praktek untuk mengidentifikasi, menciptakan, merepresentasikan, mendistribusikan, dan
memungkinkan adopsi wawasan dan pengalaman yang pengetahuan bisnis sejati.
Selain di atas, intelijen bisnis juga dapat memberikan pendekatan proaktif, seperti fungsi
alarm untuk mengingatkan pengguna aplikasi. Ada banyak jenis peringatan, misalnya jika
beberapa nilai bisnis melebihi nilai ambang jumlah dalam laporan, maka intelijen bisnis akan
memberikan peringatan dan analis bisnis bisa menjadi lebih waspada. Kadang-kadang mail
alert akan dikirim ke pengguna juga. Berikut gambar Arsitektur Bisnis Intellijen : Arsitektur
dari sebuah sistem business intelligence terdiri atas enam komponen utama (Vercellis, 2009)
yaitu:
1. Data Source
Pada tahap pertama ini diperlukan proses untuk mengumpulkan dan mengintegrasi data yang
disimpan dalam berbagai sumber yang bervariasi yang saling berbeda baik itu asal maupun
jenisnya. Sumber data ini berasal dari data yang terdapat pada operational system, tetapi juga
bisa berasal dari dokumen yang tidak terstruktur seperti email.
2. Data Warehouse
Pada tahap ini proses menggunakan extraction dan transformation tool yang dikenal sebagai ETL
(Extract, Transform, Load), data yang berasal dari berbagai sumber yang berbeda disimpan ke
dalam basisdata yang ditujukan untuk mendukung proses analisis business intelligence.
3. Data Exploration
Pada tahap ini, tools yang berfungsi untuk keperluan analisis business intelligence pasif
digunakan.Tools ini terdiri dari query dan reporting system, serta statistical methods. Metodologi
ini bersifat pasif dikarenakan para pengambil keputusan harus mengambil keputusan berdasarkan
hipotesis mereka sendiri atau mendefiniskan kriteria dari data extraction, kemudian
menggunakan tools analisis untuk menemukan jawaban dan mencocokannya dengan hipotesa
awal mereka.
4. Data Mining
Pada tahap ini proses terdiri sejumlah metodologi business intelligence bersifat aktif yang
tujuannya untuk mengekstrak informasi dan pengetahuan dari data tersebut. Metodologi ini berisi
sejumlah model matematika untuk pengenalan pola (pattern), pembelajaran mesin (machine
learn) dan teknik data mining.
5. Optimization
Pada tahap ini menghasilkan solusi dimana solusi terbaik harus dipilih dari sekian solusis
alternatif yang ada, dan biasanya sangat banyak dan beragam atau bervariasi.
6. Decisions
Pada tahap ini yang menjadi persoalan utama merupakan bagaimana menentukan keputusan
akhir yang akan diambil yang dikenal sebagai decision making process. Walaupun metodologi
business intelligence berhasil diterapkan, pilihan untuk mengambil sebuah keputusan tetap ada
ditangan para pengambil keputusan tersebut.