Anda di halaman 1dari 14

Tugas Kelompok

INTELEGENSI BISNIS

“Proses ETL (Extract, Transform and Loading. Analisis Multidimensi)”

Disusun oleh Kelompok II :

Ahmad Nur Fajar (19157201027)


Rino Santiago (19157201008)
Sitti Hasnaeni (20257201046)
Fatur rahman (19157201040)
Khairul Irhamsyah (19157201033)
Anisa Fika Putri (19157201041)

STIMIK CATUR SAKTI


SISTEM INFORMASI
KENDARI
2022
DAFTAR ISI

Hlm
COVER…………………………………………………………………… i
KATA PENGANTAR……………………………………………………. ii
DAFTAR ISI……………………………………………………………… iii

BAB I: PENDAHULUAN
1.1 Latar Belakang …………………………………………………………. 1
1.2 Rumusan Masalah ……………………………………………………… 1
1.4 Tujuan Penulisan ………………………………………………….......... 1

BAB II: PEMBAHASAN


2.1 Pengertian ETL (Extract Transform Load)............................................... 3
2.2 Cara Kerja ETL (Extract Transform Load)…………………………….. 3
2.3 ETL Dan Metode Integrasi Lainnya …………………………………… 4
2.4 Praktik Extract Transform Load…..…..…………………………........... 7
2.5 Tujuan dan Manfaat ETL………………………………………………. 8
2.6 Alat ETL………………………………………………………………... 9
2.7 Analisis Multidimensi………………………………………………….. 10

BAB III: PENUTUP


3.1 Kesimpulan……………………………………………………………... 11
3.2 Saran……………………………………………………………………. 11

DAFTAR PUSTAKA
KATA PENGANTAR

Puji syukur kami panjatkan kehadirat Allah Swt. yang sudah melimpahkan rahmat,
taufik, dan hidayah- Nya sehingga kami bisa menyusun tugas Intelegensi Bisnis ini dengan
baik serta tepat waktu. Seperti yang sudah kita tahu “Extract Transform
Load adalah proses integrasi data” yang merupakan dasar dari pengolahan data. Semuanya
perlu dibahas pada makalah ini.
Tugas ini kami buat untuk memberikan ringkasan tentang Extract Transform
Load adalah proses integrasi data. Mudah-mudahan makalah yang kami buat ini bisa
memberikan maanfaat bagi pembacanya dan menambah pengetahuan kita jadi lebih luas lagi.
Kami menyadari kalau masih banyak kekurangan dalam menyusun makalah ini.
Oleh sebab itu, kritik serta anjuran yang sifatnya membangun sangat kami harapkan
guna kesempurnaan makalah ini. Kami mengucapkan terima kasih kepada Dosen matakuliah
Intelegensi Bisnis. Kepada pihak yang sudah menolong turut dan dalam penyelesaian makalah
ini. Atas perhatian serta waktunya, kami sampaikan banyak terima kasih.

Tim Penyusun

Kelompok II
BAB I
PENDAHULUAN

1.1 Latar Belakang

Berkembangnya teknologi dan informasi saat ini semakin pesat sehingga


menghasilkan kumpulan data yang besar. Kumpulan data besar dapat diimplementasikan
disuatu DBMS (Database Management System) yang nantinya diolah untuk mendapatkan
kebutuhan informasi yang cepat, akurat dan menjadi suatu informasi yang lebih berguna.
Perkembangan teknologi dalam bidang informasi terus berkembang dan kebutuhan
masyarakat yang meningkat, sehingga menimbulkan permintaan dalam hal penyajian data
dalam bentuk laporan penjualan pada suatu perusahaan. Solusi yang diberikan yaitu
dengan menerapkan teknologi data warehouse untuk pengumpulan data transaksi yang
bersifat historis dan disimpan secara terstruktur dalam sebuah data warehouse. Data
warehouse merupakan sumber informasi yang diharapkan dapat membantu dalam
pengambilan keputusan bisnis yang tepat.
Penggunaan data warehouse pada perusahaan bertujuan membantu proses
penyimpanan dan penyajian data sehingga perusahan dapat mencatat segala transaksi yang
terstruktur. Penerapan data warehouse merupakan tempat untuk sinkronisasi data yang
didalamnya terjadi penyamaan struktur data sehingga data transaksi dapat diterima pada
data warehouse. Proses sinkronisasi didalam data warehouse atau disebut dengan proses
ETL (extract, transform, dan load) yang menjembatani antara data transaksi dengan media
penyimpanan data warehouse.
ETL merupakan sekumpulan proses mengumpulkan, menyaring, mengolah, dan
menggabungkan data yang harus dilalui dalam pembentukan data warehouse. Proses ETL
ini terdiri dari proses Extracting, tranforming, dan loading. Extracting adalah proses
memilih dan mengambil data dari suatu kumpulan data sebuah perusahaan. Tranforming
merupakan proses membersihkan dan mengubah struktur data dari bentuk asli menjadi
bentuk yang sesuai dengan kebutuhan data warehouse. Load merupakan proses terakhir
yang berfungsi untuk memasukan data kedalam data warehouse.
1.2 Rumusan Masalah
Permasalahn yang hendak dibahas dalam makalah ini antara lain:
1. Apa pengertian dari sistem ETL ?
2. Bagaimana cara kerja atau proses kerja sistem ETL ?
3. Apa tujuan dan manfaat dari sistem ETL ?
4. Alat dan layanan ETL ?

1.3 Tujuan Makalah


Bersumber pada rumusan permasalahan yang disusun di atas, hingga tujuan dalam
penyusunan makalah ini merupakan bagaikan berikut:
1. Mengetahui pengertian dari sistem ETL
2. Mengenali cara kerja atau proses kerja sistem E TL
3. Mengetahui tujuan dan manfaat dari sistem ETL
4. Mengenali Alat dan layanan ETL
BAB II
PEMBAHASAN

2.1 Pengertian ETL (Extract Transform Load)


ETL (Extract, Transform and Load) adalah suatu proses yang berhubungan dengan
ETL dalam data warehouse sebagian besar adalah masalah yang rumit dan membutuhkan
kinerja manusia yang besar. ETL berfungsi untuk mengubah data dari sumber data menjadi
informasi yang dapat disimpan ke dalam sistem data warehouse.
ETL mewakili singkatan dari Extract Transform Load sebagai proses untuk
menghasilkan centralized database. Secara umum, sebuah ETL akan menjalankan ketiga
tahapan berbeda tersebut. Selain itu, proses ini juga bekerja memastikan bahwa data yang
dibutuhkan sudah lengkap sekaligus dapat diolah lebih lanjut. Seiring berkembangnya
teknologi data selama dekade terakhir, sifat dan penanganan ETL secara tepat menjadi
salah satu fokus yang lebih penting ketimbang sebelumnya.
Di akhir 1980-an dan awal 1990-an, data warehouse sempat menjadi pusat
perhatian. Dari sinilah pengembangan tools untuk membantu memuat data ke
dalam warehouse dimulai. Mulanya, setiap orang membutuhkan cara untuk untuk
mengekstrak (extract) data dari sistem yang disimpan. Dilanjutkan dengan mengubah
(transform) data berdasarkan format tujuan data lalu memuatnya (load). Seiring jumlah
dan persebaran data yang semakin masif, tools untuk mengerjakan ETL menjadi semakin
canggih.
Secara umum, proses ETL akan mengumpulkan kemudian menyaring beragam
jenis data. Dilanjutkan dengan pengiriman data menuju data warehouse, seperti Redshift,
Azure, atau BigQuery. ETL juga memungkinkan terjadinya migrasi data berdasarkan
sumber, tujuan, serta analysis tools. Perannya sungguh penting dalam aspek business
intelligence serta strategi data management yang lebih luas.

2.2 Cara Kerja ETL (Extract Transform Load)


Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan
data data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse.
Proses ETL sendiri terdiri dari extracting, transforming, loading,
Langka 1 : Extract
Extract adalah proses memilih dan mengambil data dari satu atau beberapa sumber
misalnya Server SQL, XML, atau flat files untuk dibaca atau diakses data yang dipilih
tersebut. Sebelum proses extract ini kita lakukan, akan lebih baik dan mempermudah jika
user sudah mendefinisikan kebutuhan terhadap sumber data yang akan digunakan terlebih
dahulu. Proses ini dapat menggunakan query, atau aplikasi ETL. Sebaiknya sebelum
proses extract kita lakukan, akan lebih mudah jika user sudah mendefinisikan kebutuhan
terhadap sumber data yang akan kita butuhkan.
Beberapa bisnis biasanya bergantung pada suatu sistem atau tipe data. Sebagian
besar pengelolaan data terjadi dari berbagai sumber dan menggunakan sejumlah data
analysis tools. Tujuannya untuk memproduksi keperluan business intelligence. Untuk
membuat strategi data yang kompleks dan berfungsi dengan baik, data harus mampu
dipindahkan secara bebas antara sistem maupun aplikasi. Sebelum dipindahkan ke tempat
yang baru, kamu harus mengekstraksi data terlebih dahulu dari sumbernya. Melalui
langkah pertama proses ETL ini, data terstruktur maupun tidak terstruktur diimpor lalu
dikonsolidasikan menuju suatu repositori. Data yang mentah dapat diekstraksikan dari
berbagai sumber, termasuk:
 Database yang ada dan pemakaian sistem sebelumnya
 Cloud, hybrid, dan non-premises environment
 Aplikasi sales dan marketing
 Mobile devices dan aplikasi
 CRM systems
 Data storage platforms
 Data warehouse
 Analytics tools
Langkah 2 : Transform
Transformation adalah proses dimana data yang telah diambil pada
proses extract akan dioalah dan mengubah data dari bentuk asli menjadi bentuk yang
sesuai dengan kebutuhan data warehouse. Langkah ini sangat penting dalam proses ETL
karena membantu memastikan data yang akan diolah sepenuhnya siap dan kompatibel.
Pada Proses ini data yang telah diambil pada proses extract akan dibersihkan
dan mengubah data dari bentuk asli menjadi bentuk yang sesuai dengan kebutuhan data
warehouse.Adapun masalah yang biasanya terjadi pada proses transform adalah sulitnya
mengg abungkan data dari beberapa sistem yang berbeda.
Biasanya, ada 5 hal yang dilakukan pada data:
1. filtering, adalah proses dimana kita menyaring data dengan filter tertentu
2. cleaning, adalah proses menyesuaikan format penulisan.
3. joining, adalah proses diamana ketika data yang serupa menjadi satu
4. splitting, adalah proses memecah data yang berbeda menjadi dua atau lebih
5. sorting, adalah proses mengurutkan data berdasarkan ciri-ciri tertentu.
Selama fase ETL yang satu ini, aturan serta regulasi dapat diterapkan dalam
memastikan kualitas serta aksesibilitas data. Kamu juga dapat menggunakan aturan untuk
membantu perusahaan memenuhi persyaratan pelaporan. Transformasi umumnya
dianggap sebagai bagian yang penting dari ETL. Langkah transformasi mampu
meningkatkan integritas data kemudian membantu memastikan bahwa data sepenuhnya
kompatibel sekaligus siap digunakan. Proses transformasi terdiri dari beberapa tahapan,
antara lain:
 Cleansing: Inkonsistensi dan missing values yang ada di dalam data mampu diatasi
melalui proses ini
 Standardization: Aturan formatting diterapkan menuju dataset
 Deduplication: Data yang berlebihan akan menjadi perkecualian dan dibuang
 Verification: Data yang tidak dapat digunakan akan dihapus dengan penandaan anomali
 Sorting: Data diatur menurut jenisnya
 Tugas lainnya: Aturan tambahan/opsional diterapkan untuk meningkatkan kualitas data

Langkah 3 : Load
Load adalah proses terakhir yang berguna untuk memasukkan data ke dalam target
akhir, yaitu ke dalam data warehouse. Berikut ini adalah cara untuk memasukkan data
adalah:
 menjalankan SQL script secara periodic yang akan mengubah data kedalam bentuk
Dimensional Data Store agar format data cocok untuk diterapkan pada proses analisis
dan telah terintegrasi dengan beberapa sumber data.
 Proses Load kedua yaitu akan sampai ke berbagai macam output yang sesuai dengan
skemanya, yaitu terdiri dari proses load-up data (lodupd), load-insert data (lodins),
dan load bulk data (lodbld).
Langkah terakhir dalam proses ETL adalah memuat data yang baru saja diubah ke tujuan
yang baru. Data dapat menggunakan proses loading sekaligus (full load) atau pada interval
waktu terjadwal (incremental load). Berikut penjelasan dari masing-masing jenis loading
pada ETL:
 Full loading
Dalam skenario full loading, semua yang berasal dari jalur perakitan transformation
masuk ke catatan baru serta unik dari data warehouse. Meskipun terkadang berguna
untuk tujuan penelitian, full loading menghasilkan dataset eksponensial dan sulit
untuk mendapatkan upaya maintaining.
 Incremental loading
Pendekatannya kurang komprehensif, namun lebih mudah dikelola. Incremental
loading membandingkan data yang masuk dengan yang sudah ada. Dilanjutkan
dengan menghasilkan catatan tambahan untuk informasi baru yang ditemukan.
Arsitektur ini memungkinkan data warehouse yang lebih kecil dan terjangkau untuk
memelihara serta mengelola business intelligence.

Adapun sebagai berikut tools yang biasa digunakan dalam proses ETL (Extract,
transform, dan load):
1. SSIS (SQL Server Integration Services).
SQL Server Integration Services SSIS dapat diakses didalam Microsoft Visual Studio.
Software ini merupakan pengembangan dari platform Microsoft SQL Server Business
Intelegence BI yang berguna untuk membuat ETL packages. Packages adalah
kumpulan task yang dieksekusi dengan urutan tertentu dan merupakan komponen
utama SSIS. Package dapat disimpan di SQL Server pada database msdb, ataupun
disimpan sebagai sebuah file .dtsx.
2. Talend
Talend adalah open source yang digunakan untuk integrasi data, Talend biasanya
digunakan untuk integrasi antar sistem operasional (ETL). Fitur utama dari talend
adalah membantu mengelola semua aspek tahapan yang ada pada ETL secara efisien
dan efektif. Talend adalah software yang cukup banyak digunakan karena telah
digunakan oleh ratusan ribu pengguna termasuk beberapa perusahaan terbesar di dunia
dan bahkan instansi pemerintah. Adapun keuntungan terpenting dari Talend sebagai
Integrasi Data adalah menyediakan alat yang dapat mengintegrasikan, membersihkan,
dan menyimpan semua data dan memungkinkan anda mengambil dan mengubah data
untuk membuat keputusan yang lebih cepat.
3. Pentaho Data Integration (PDI)
Pentaho Data Integration (PDI) adalah aplikasi memiliki sifat yang sama dengan talend
yaitu bersifat free open source software dengan memanfaatkan platform Java. Pentaho
Data Integration (PDI) menyediakan kemampuan Extract, Transform, and Load (ETL)
yang memfasilitasi capturing, cleansing, dan storing data menggunakan format yang
konsisten dan dapat diakses serta relevan bagi pengguna dan teknologi IoT. Selain open
source Pentaho bisa didapatkan dalam bentuk Service Level Agreement (SLA) dan
dipaketkan dalam versi Enterprise Edition yang sifatnya annual.

2.3 ETL Dan Metode Integrasi Lainnya


ETL dan ELT hanyalah dua metode integrasi data, dan ada pendekatan lain yang
juga digunakan untuk memfasilitasi alur kerja integrasi data. Beberapa di antaranya
adalah:
 Change Data Capture (CDC) mengidentifikasi dan menangkap hanya data sumber yang
telah diubah dan memindahkan data tersebut ke sistem target. CDC dapat digunakan
untuk mengurangi sumber daya yang diperlukan selama langkah "ekstrak" ETL; itu
juga dapat digunakan secara independen untuk memindahkan data yang telah diubah
menjadi data lake atau repositori lainnya secara real time.
 Replikasi data menyalin perubahan dalam sumber data secara real time atau dalam
batch ke database pusat. Replikasi data sering terdaftar sebagai metode integrasi data.
Bahkan, ini paling sering digunakan untuk membuat cadangan untuk pemulihan
bencana.
 Virtualisasi data menggunakan lapisan abstraksi perangkat lunak untuk membuat
tampilan data yang terpadu, terintegrasi, dan dapat digunakan sepenuhnya—tanpa
menyalin, mengubah, atau memuat data sumber secara fisik ke sistem target.
Fungsionalitas virtualisasi data memungkinkan organisasi untuk membuat gudang data
virtual, data lake, dan data mart dari sumber data yang sama untuk penyimpanan data
tanpa biaya dan kerumitan dalam membangun dan mengelola platform terpisah untuk
masing-masing. Sementara virtualisasi data dapat digunakan bersama ETL, itu semakin
dilihat sebagai alternatif untuk ETL dan metode integrasi data fisik lainnya.
 Stream Data Integration (SDI) persis seperti yang terdengar—terus-menerus
menggunakan aliran data secara real time, mengubahnya, dan memuatnya ke sistem
target untuk dianalisis. Kata kuncinya di sini adalah terus menerus. Alih-alih
mengintegrasikan snapshot data yang diekstraksi dari sumber pada waktu tertentu, SDI
mengintegrasikan data secara konstan saat tersedia. SDI memungkinkan penyimpanan
data untuk mendukung analitik, pembelajaran mesin, dan aplikasi waktu nyata untuk
meningkatkan pengalaman pelanggan, deteksi penipuan, dan banyak lagi.

2.4 Praktik Extract Transform Load


 Memahami dan menganalisis sumber data
Penting untuk memahami sekaligus menganalisis tipe dan volume data yang
akan kamu tangani. Untuk memproses data dengan baik, kamu perlu menganalisis
sumber dari material data tersebut. Hal ini juga termasuk pengenalan terhadap data
types, schema, dan detail lainnya dari data. Ragam sumber ini sudah meliputi aplikasi
yang tergolong SaaS, yaitu Salesforce, HubForce, maupun database lainnya. Kamu juga
dapat menggunakan staging table untuk membuat keputusan yang bervariasi kemudian
memindahkan data ke tabel sebenarnya.
 Memecahkan masalah pada data
Data adalah aset terbesar bagi perusahaan mana pun di masa kini dan sangatlah
penting untuk memprosesnya dengan baik. Dengan begitu, pastikan masalah yang
sudah muncul di siklus pertama tidak akan terulang di siklus ETL berikutnya. Inilah
praktik terbaik dalam menyelesaikan ETL demi kebutuhan data. Beberapa cara untuk
melakukannya sudah mencakup:
1. Menambahkan autocorrect tasks untuk predictable errors.
2. Menginput batasan validasi data.
3. Berbicara langsung dengan mitra jika kesalahan terus berlanjut
 ETL logging
ETL logging merupakan praktik yang mencakup pendokumentasian semua
yang terjadi sebelum, selama, dan sesudah proses ETL. Setiap bisnis yang punya basis
penangananan berbeda membutuhkan pendekatan serta solusi yang unik.
Mempertahankan rutinitas log yang tepat mampu membantu pemilihan dan
penyesuaian proses menuju ETL data.
 Modularity
Modularization adalah proses mengabstraksikan proses ETL menjadi blok yang
lebih kecil dan dapat digunakan kembali. Hal ini membantu menyederhanakan proses
dan menggunakan kembali suatu coding untuk beberapa proses. Upaya ini dapat
dilakukan sembari memecahkan code menjadi beberapa fungsi sembari memanfaatkan
konsep yang berbeda dari object-oriented programming. Keuntungan dari
praktik modularity adalah pengujian unit yang lebih mudah dan penetapan standar yang
harus diikuti oleh masing-masing proses.
 Mengoptimalkan ETL solution
ETL solution melibatkan praktik secara umum yang membantu proses ETL
menjadi lebih cepat. Hal ini melibatkan penggunaan proses paralel yang paling
mungkin. Praktik terbaiknya dapat diambil dari kepastian bahwa hardware yang kamu
gunakan dapat menangani proses ETL dengan baik hingga membandingkannya secara
berkala. Untuk menghemat waktu, kamu dapat membuat perubahan sederhana berupa
menonaktifkan check and foreign key.

2.5 Tujuan dan Manfaat ETL


Solusi ETL meningkatkan kualitas dengan melakukan pembersihan data sebelum
memuat data ke repositori yang berbeda. Operasi batch yang memakan waktu, ETL
direkomendasikan lebih sering untuk membuat repositori data target yang lebih kecil yang
memerlukan pembaruan yang lebih jarang, sementara metode integrasi data lainnya—
termasuk ELT (ekstrak, muat, transformasi), ubah pengambilan data (CDC), dan
virtualisasi data digunakan untuk mengintegrasikan volume data yang semakin besar yang
berubah atau aliran data waktu nyata.
ETL sering digunakan oleh organisasi untuk Mengekstrak data dari sistem lama,
Membersihkan data untuk meningkatkan kualitas data dan membangun konsistensi serta
Memuat data ke database target.

2.6 Alat ETL


Di masa lalu, organisasi menulis kode ETL mereka sendiri. Sekarang ada banyak alat
ETL dan layanan cloud open source dan komersial untuk dipilih. Kemampuan khas produk
ini meliputi:
1. Otomatisasi komprehensif dan kemudahan penggunaan: Alat ETL terkemuka
mengotomatiskan seluruh aliran data, dari sumber data hingga gudang data target.
Banyak alat merekomendasikan aturan untuk mengekstrak, mengubah, dan memuat
data.
2. Antarmuka visual, seret dan lepas: Fungsi ini dapat digunakan untuk menentukan aturan

dan aliran data.


3. Dukungan untuk manajemen data yang kompleks: Ini termasuk bantuan dengan
perhitungan yang kompleks, integrasi data, dan manipulasi string.
4. Keamanan dan kepatuhan: Alat ETL terbaik mengenkripsi data baik dalam keadaan
bergerak maupun diam dan disertifikasi sesuai dengan peraturan industri atau
pemerintah, seperti HIPAA dan GDPR.

2.7 Analisis Multidimensi


Data perlu diorganisasi dalam bentuk lain berupa data multidimensi yang dinamakan
MOLAP (Multidimensional Online Analytical Processing) atau data relasional ROLAP
(Relational Online Analytical Processing). Data disimpan dalam data warehouse dalam
bentuk multidimensi dioptimasi untuk pencarian kembali (retrieval) untuk OLAP (Online
Analytical Processing). Setelah itu dilakukan analisa multidimensi yang memberikan
kemampuan untuk melakukan query dan membuat laporan (reporting).
Suatu cara melihat data dengan multidimensi tersebut dikenal dengan nama kubus
(cube). Kubus ini menjadi struktur OLAP yang utama yang digunakan untuk melihat data
(view). Analisa menggunakan kubus ini memberikan fasilitas banyak dimensi untuk melihat
data yang diinginkan. Sehingga memungkinkan untuk mengakses data dengan lebih mudah
dan cepat untuk menjawab pertanyaan yang dikemukakan.
BAB III
PENUTUP

3.1 Kesimpulan
Data warehouse tidak mungkin ada tanpa adanya proses ETL karena Proses
ETL merupakan suatu landasan dari sebuah data warehouse. Proses ETL ini sangat
penting karena sangat berperan terhadap kualitas data dalam data warehouse,
sehingga data warehouse nantinya dapat digunakan untuk keperluan business intelligence
atau aktivitas analisis yang lain. Dikatakan Sebuah proses ETL berjalan dengan benar, jika
pada proses itu melibatkan beberapa hal yaitu akan adanya proses mengekstraksi data dari
sebuah sumber, mempertahankan kualitas data tersebut, menerapkan aturan-aturan
standar, dan menyajikan data dalam berbagai bentuk, sehingga dapat digunakan dalam
proses pengambilan keputusan.

Anda mungkin juga menyukai