Puji syukur ke hadirat Tuhan YME yang telah melimpahkan segala rahmat
dan karuniaNya, sehingga penulis dapat menyelesaikan tugas makalah data
warehouse, yang merupakan salah satu tugas individu dari setiap mahasiswa.
Penulis menyadari bahwa makalah ini masih jauh dari sempurna. Karena itu,
kritik dan saran akan senantiasa penulis terima dengan senang hati. Dengan segala
keterbatasan, penulis menyadari pula bahwa tugas ini takkan terwujud tanpa
bantuan, bimbingan, dan dorongan dari berbagai pihak. Untuk itu, dengan segala
kerendahan hati, penulis menyampaikan ucapan terima kasih kepada:
1. Bapak Sunarsan Sitohang, S.Kom., M.TI. selaku dosen pengampu.
2. Ketua Program Studi Bapak Andi Maslan, S.T., M.SI.
3. Dosen dan Staff Universitas Putera Batam
4. Kepada kedua orang tua yang telah mendo’akan saya.
Semoga Allah SWT membalas kebaikan dan selalu mencurahkan hidayah
serta taufik-Nya, Amin.
Penulis
(Kristian Junianto Pardede)
ii
DAFTAR ISI
iii
2.3.1. Pendahuluan .................................................................................. 15
2.3.2. Hasil dan Pembahasan .................................................................. 15
BAB III ................................................................................................................. 20
PENUTUP ............................................................................................................. 20
3.1. Kesimpulan ........................................................................................... 20
DAFTAR PUSTAKA
iv
BAB I
PENDAHULUAN
1
a. Subject Oriented
b. Data Terintegrasi
2
Untuk pembuatan keputusan, data yang akan dimasukkan ke dalam data
warehouse dapat diambil dari berbagai aplikasi yang berhubungan dengan
keputusan yang akan dibuat. Data didalam data warehouse akan memiliki
perbedaan database, file dan segmentasi. Dikarenakan data untuk data warehouse
diambil dari aplikasi yang berbeda maka akan berbeda pula platform dan sistem
operasi yang digunakan aplikasi tersebut yang juga akan memunculkan perbedaan
pada tampilan file, representasi kode karakter, penamaan field tentunya. Oleh
karena itu, sebelum data yang dibutuhkan untuk data warehouse yang berasal dari
berbagai sumber data akan digunakan maka harus dilakukan penghapusan terhadap
data yang tidak konsisten dan harus dilakukan proses standardisasi untuk berbagai
elemen data. Sehingga data yang akan digunakan untuk data warehouse harus
melewati beberapa proses yaitu transformasi, konsolidasi dan integrasi dengan
sumber data lainnya.
c. Time Variant
Pada sistem operasional, data yang disimpan hanya mengandung nilai saat
ini saja. Namun tentu saja sistem operasional masih menyimpan beberapa data yang
sifatnya masa lalu. Akan tetapi secara esensial sistem operasional menggambarkan
informasi saat ini karena sistem mendukung operasi setiap hari nya. Pada data
warehouse, disebabkan oleh tujuan natural nya, data warehouse mengandung data
historis, tidak hanya nilai saat ini. Data disimpan sebagai gambaran masa lalu dan
periode saat ini. Setiap struktur data dalam data warehouse mengandung elemen
waktu. Secara alamiah, karakteristik time variant dalam data warehouse adalah
mengizinkan untuk menganalisis masa lalu, menghubungkan informasi saat ini, dan
memungkinkan untuk memprediksi masa depan.
d. NonVolatile
Data diekstraksi dari berbagai sistem operasional dan data yang bersumber
dari luar (eksternal) yang kemudian ditransformasi, diintegrasi, dan disimpan ke
dalam data warehouse. Data di dalam data warehouse tidak dirancang untuk
3
menjalankan bisnis setiap harinya. Sehingga dalam data warehouse tidak ada proses
pembaharuan data untuk setiap kali proses transaksi berjalan
4
Gambar 1.4 Arsitektur Data Warehouse
Alat back-end adalah sekumpulan perangkat lunak akuisisi data dengan tiga
tugas utama: meng-ekstrak data dari sumber-sumber eksternal,
mengkonsolidasikan data ke dalam sebuah skema global, dan memuat data ke
dalam data warehouse (Garcia-Molina et al. 2002). Aktivitas-aktivitas ini umumnya
dikenal sebagai proses ETL (Extract, Transform, and Load). Modul-modul yang
bertanggung jawab untuk proses ekstraksi, konsolidasi dan pemuatan tersebut
adalah wrapper/monitor dan integrator (Widom 1995). Modul wrapper bertugas
mengubah sumber-sumber informasi dari format asalnya menjadi format dan model
data yang digunakan oleh sistem data warehouse. Ada beberapa proses yang
dilakukan pada saat berlangsungnya konversi, yaitu pemformatan ulang, pencucian,
pengintegrasian, dan peringkasan sumber-sumber informasi (Dunham 2003).
Peranan modul monitor adalah untuk mendeteksi secara otomatis setiap perubahan
5
dalam sumber informasi dan melaporkannya kepada modul integrator, yang
kemudian melakukan sederetan operasi seperti penyaringan, peringkasan,
penggabungan, dan penginstalasian informasi ke dalam data warehouse.
Untuk memenuhi keperluan sekelompok pemakai tertentu atau untuk tugas
pengambilan keputusan, sistem data warehouse mungkin juga menyediakan data
marts dalam bentuk data terpakai untuk analisis pengguna akhir. Data mart
merupakan sub-divisi dari data warehouse menurut tingkat departemental, regional,
atau fungsional yang dapat menyokong jenis aplikasi analitik yang lebih spesifik
secara efisien. Dari sudut pandangan bisnis, data mart adalah tingkat ritel dimana
konsumer data (dalam hal ini pengguna akhir) memperoleh informasi spesifik dari
data warehouse (Moody & Kortink 2000).
Alat front-end terdiri dari perangkat lunak klien yang dapat digunakan untuk
mengakses informasi yang disimpan di dalam data warehouse atau data mart.
Sistem data warehouse biasanya menyediakan berbagai alat aplikasi untuk
mengakomodasi tingkat kemahiran pengguna akhir yang berbeda-beda. Tergantung
pada bagaimana data disimpan di dalam data warehouse, alat-alat tersebut dapat
mengakses server data warehouse untuk melakukan kueri. Server itu kemudian
melakukan konsultasi ke tempat penyimpanan metadata dan database untuk
menjawab kueri tersebut.
Tempat penyimpanan metadata digunakan dalam data warehouse untuk
mencatat deskripsi data baik dari sumber-sumber informasi maupun dari data
warehouse itu sendiri. Metadata itu seperti kartu katalog perpustakaan yang
menunjuk ke sebuah lokasi dan makna dari berbagai objek informasi di dalam data
warehouse (Barquin & Edelstein 1997). Alat-alat back-end dan front-end
melakukan permintaan informasi berdasarkan pemilihan yang dibuat dari katalog
tersebut. Sebagai contoh, alat back-end dapat berkonsultasi dengan penyimpanan
metadata tentang lokasi sebuah data tertentu, waktu untuk memperoleh data
tersebut, format data dalam sumber informasi dan transformasi atau tindakan lain
yang harus dilakukan terhadap data tersebut bilamana data itu dimuat ke dalam data
warehouse. Manakala alat front-end mungkin perlu mengetahui tentang deskripsi
item data tertentu, format data tersebut dalam data warehouse, informasi yang
6
sesuai yang diperlukan untuk memungkinkan pemilihan kueri pengguna yang
akurat, cara peringkasan data, dan bagaimana menyajikan hasil yang diperoleh
untuk memberi jawaban terbaik terhadap kueri.
7
BAB II
PEMBAHASAN
8
Pendaftaran dan Registrasi. Masing-masing tabel mewakili kegiatan transaksional
yang terjadi dalam penerimaan calon mahasiswa baru. permasalahan dan penyebab
masalah yang muncul dalam Penerimaan Mahasiswa Baru (PMB) sebagai berikut:
Identifikasi penyebab Alternatif pemecahan
NO. Masalah yang dihadapi
masalah masalah
Data yang ada pada
perguruan tinggi yang
Belum tersedianya
1. semakin besar dan banyak
data warehouse.
membutuhkan alokasi tempat
penyimpanan
Pengolahan data mahasiswa Data warehouse dan
belum optimal khususnya aplikasi OLAP
Belum tersedianya
2. pengolahan data yang Penerimaan Mahasiswa
aplikasi OLAP yang
berhubungan dengan analisis Baru (PMB)
digunakan dalam
historikal mahasiswa baru
penerimaan
Data penerimaan mahasiswa
Mahasiswa Baru
baru tidak dapat disajikan
3. (PMB)
dalam bentuk multi
dimensional
9
Perancangan dalam data warehouse penerimaan calon mahasiswa baru ini
menggunakan Star Schema, bentuk ini dipilih karena tabel dimensinya tidak
mengandung ringkasan atau tidak memiliki perbedaan tingkat ukuran sehingga
tidak memerlukan tabel sub dimensi. Skema ini merupakan skema yang mudah
dipahami daripada skema yang lain. Dengan menggunakan Star Schema, performa
proses querynya menjadi lebih dan waktu pemrosesan menjadi lebih cepat, secara
garis besar Star Schema terdiri dari satu tabel fakta dan beberapa tabel dimensi.
10
= 9,05
b. Pengujian Reability
∑ X1 = 96,17 (Jumlah rata-rata skor pertanyaan)
n = 21 (Jumlah Responden)
Skor = 96,17 / 11
= 59,9
c. Pengujian Usability
∑ X1= 103,4 (Jumlah rata-rata skor pertanyaan)
n = 23 (Jumlah Responden)
Skor = 103,4 / 11
= 4,50
d. Pengujian Efficiency
∑X1 = 95,8 (Jumlah rata-rata skor pertanyaan)
n = 23 (Jumlah Responden)
Skor = 95,8 / 11
= 4,17
e. Pengujian Maintainbility
∑ X1 = 92 (Jumlah rata-rata skor pertanyaan lampiran 7)
n = 23 (Jumlah Responden)
Skor = 92 / 11
=4
f. Pengujian Portability
∑ X1= 87,2 (Jumlah rata-rata skor pertanyaan lampiran 8)
n = 23 (Jumlah Responden)
Skor = 96,17 / 11
= 3,79
11
2.2. Penerapan Data Mining Dengan Metode Klasifikasi Menggunakan
Decision Tree dan Regresion
2.2.1. Pendahuluan
Indonesia dengan kekayaan gas alam yang sangat besar, seharusnya
pengadaan enegi gas dapat dimaksimalkan untuk memenuhi kebutuhan dalam
negeri. Namun masyarakat masih sedikit yang memanfaatkan program konversi
BBM ke Bahan Bakar Gas (BBG). Diawali dengan keinginan pemerintah untuk
mengkonversi Bahan Bakar Minyak (BBM) ke Bahan Bakar Gas (BBG), sehingga
BUMN (Badan Usaha Milik Negara) khususnya di kabupaten Cilacap pada tahun
2009 berusaha untuk memaksimalkan keinginan pemerintah yang kemudian akan
memberikan secara cuma-cuma kompor gas dan tabung gas untuk golongan yang
tidak mampu, dan kemudian BUMN pun melakukan survey secara menyeluruh
untuk mendapatkan data yang valid kelompok masyarakat mana yang
diprioritaskan pertama untuk mendapatkan bantuan tersebut.
Data Mining (Penambangan data) merupakan bidang ilmu multidisplin,
menggambarkan area-area kerja yang termasuk didalamnya adalah teknologi basis
data, pembelajaran mesin, statistik, pengenalan pola, pengambilan informasi,
jaringan saraf tiruan, sistem berbasis pengetahuan, kecerdasan buatan, komputasi
kinerja-tinggi, dan visualisasi data (Han & Kamber, 2006).
Ada banyak metodologi Data Mining, salah satu yang populer adalah Pohon
Keputusan (Decision Tree). Pohon keputusan merupakan salah satu metode
klasifikasi yang sangat menarik yang melibatkan konstruksi pohon keputusan yang
terdiri dari node keputusan yang di hubungkan dengan cabangcabang dari simpul
akar sampai ke node daun (akhir). Pada node keputusan attribut akan diuji, dan
setiap hasil akan menghasilkan cabang. Setiap cabang akan diarahkan ke node lain
atau ke node akhir untuk menghasilkan suatu keputusan (Larose, 2005). (Meilina,
2015)
12
2.2.2. PreProcessing
PreProcessing yang dilakukan yaitu proses pembersihan data mengalami
tiga tahap pembersihan yaitu: Incomplete, Noisy dan Inconsisten. Berikut dibawah
ini penjelasan dan prosesnya.
a. Incomplete
Pada tahap ini, penulis membersihkan data berdasarkan data yang tidak lengkap
atau data yang tidak terisi. Kesimpulan dari tahap ini adalah pembersihan data,
dalam artian bahwa jika attribute data tersebut kosong atau tidak terdapat nilai
didalamnya maka attribute data tersebut akan dihapus. Hal tersebut di atas
dikarenakan penulis tidak memiliki data pendukung untuk mengisi attribute data
yang kosong.
b. Noisy dan Inkonsistensi Data
Merupakan suatu data yang memiliki kelainan, hal ini dikarenakan karena
kesalahan operator dalam memasukkan data kedalam database, permasalahan pada
pentransmisian data, keterbatasan teknologi, atau tidak dilakukannya
penyeragaman data, seperti data wilayah, jenis kelamin, dan lain sebagainya.
Proses pembersihan data ini menggunakan suatu tools data mining yaitu Orange.
13
data sebelumnya yang merupakan bentuk file Tab Delimited yaitu Text atau .txt
menjadi bentuk .dat.
14
linear pada Aplikasi Data Mining yang Peneliti rancang, yang kemudian hasil dari
proses tersebut satu per satu Kelurahan yang ada di Kecamatan Kroya akan
dibandingan secara keseluruhan. Hasil dari regresi linear ini adalah mencari nilai
dari Variabel Y terkecil di kelurahan yang ada.
15
yang tercatat dalam database dan form untuk analisis untuk mencari
pengelompokan barang. Form untuk mengimplementasikan sistem informasi
pendataan dilengkapi dengan 3 pilihan untuk pengguna sistem yaitu pilihan
menampilkan keseluruhan data transaksi dari rekaman data, pilihan untuk
menampilkan data transaksi berdasarkan pilihan periode waktu dan pilihan
berdasarkan kata kunci nama barang yang akan digunakan.
16
Tampilkan Data.
Hasil analisis dapat dipilih oleh pengguna oleh karena sistem menyediakan
3 pilihan bentuk analisis yaitu analisis seluruh iterasi, analisis per iterasi dan analisis
berdasarkan range iterasi yang diberikan. Secara mendasar, ketiga pilihan
mempunyai kode program yang sama, yang membedakan adalah proses
menampilkan hasil analisis. Pengguna dapat menampilkan secara kontinyu seluruh
proses iterasi algoritma apriori atau proses ditampilkan secara per iterasi maupun
hanya iterasi-iterasi tertentu saja. Hasil analisis ditampilkan dalam bentuk tabel
hasil analisis, dimana tabel tersebut menampilkan data kombinasi setiap item
barang dan jumlah atau frekuensi transaksi yang memuat kombinasi tersebut.
17
bahwa data-data tersebut dapat mewakili jumlah transaksi keseluruhan.
Rekomendasi sistem minimal dalam menjalankan sistem ini, khususnya prosesor
dan memori ditetapkan sesuai dengan standar minimal Visual Basic sebagai
perangkat dasar yang digunakan dalam mengembangkan sistem ini. Rekomendasi
sistem minimal dari Visual Basic adalah Prosesor: 133 Mhertz dan jumlah Memori:
128 Mbyte. Sistem operasi yang digunakan adalah sistem operasi windows.
Perhitungan yang dilakukan melalui proses sistem, akan berbeda karena
dipengaruhi oleh spesifikasi komputer yang digunakan, data yang dianalisis, dan
banyaknya sampel yang digunakan dalam proses analisis data mining. Perhitungan
di bawah ini menggunakan spesifikasi komputer berkecepatan 1 Gigahertz dengan
besar ukuran memori 1 Gigabyte.
18
membutuhkan sumber daya yang sangat besar dan waktu analisis yang lama adalah
proses join antar item barang. Dengan proses kombinasi item barang yang semakin
banyak menyebabkan kombinasi antar item juga semakin banyak. Hasil akhir
menunjukkan perhitungan 50 item barang membutuhkan waktu yang lebih banyak
dibandingkan perhitungan 20 item barang.
19
BAB III
PENUTUP
3.1. Kesimpulan
a. Dengan dibangunnya Data Warehouse maka penelusuran informasi
dapat dilakukan dengan mudah dan lebih fleksibel.
b. Informasi yang terdapat pada Data Warehouse dapat digunakan untuk
evaluasi dan perencanaan untuk perkembangan atau project yang
dilakukan di kemudian hari.
c. Setelah melalui tahap perancangan sistem dan implementasi diperoleh
hasil optimasi pemrograman query pada penelitian jurnal di atas, waktu
yang digunakan menjadi lebih singkat karena semua data disimpan
dalam bentuk tabel kemudian diolah dengan cara mengoptimalkan
proses asosiasi antar item dan tingkat keakurasian hasil asosiasi menjadi
lebih tinggi.
d. Dengan adanya Data Warehouse dan Data Mining penelitian yang
dilakukan oleh peneliti dapat terlaksana dengan baik dan tujuan peneliti
dapat tercapai. Hasil yang didapat dari penelitian sangat lah baik dan
jelas seperti yang dijelaskan pada pembahasan jurnal.
20
DAFTAR PUSTAKA