Anda di halaman 1dari 20

Data Mining & Data Warehouse

PENDAHULUAN
Salah satu efek yang dihasilkan dari adanya suatu sistem informasi adalah
munculnya banyak data. Data yang ada ini berasal dari sistem operasional yang
berfungsi untuk menangani transaksi yang terkait dengan proses bisnis yang
ditangani oleh sistem informasi tersebut. Contoh: sistem informasi presensi
karyawan memunculkan data jumlah kehadiran kehadiran karyawan setiap hari
dengan data yang disimpan tergantung pada apa yang dibutuhkan oleh sistem
informasi tersebut (misalkan: nomor induk pegawai, jam masuk, pintu masuk,
dsb.). Bayangkanlah sistem informasi ini dipakai di perusahaan yang jumlah
karyawannya sebanyak 1000 orang. Apabila data ini dipakai selama seminggu
masa kerja saja (5 hari), maka data yang masuk dalam basis data ada 1000 x 5 =
5000 baris. Anda tinggal kalikan saja apabila ingin menghitung jumlah data yang
disimpan selama seminggu waktu operasional, sebulan, hingga setahun. Itu baru
satu sistem informasi saja. Di korporasi yang besar sistem informasi yang ada
berjumlah banyak dengan berbagai fungsi dan tujuannya. Akhirnya masalah
berikutnya muncul.
Data warehouse adalah data-data yang beorientasi subjek, terintegrasi, memiliki
dimensi waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan
dalam mendukung proses pengambilan keputusan. Sedangkan data mining
muncul setelah banyak dari pemilik data baik perorangan maupun organisasi
mengalami penumpukan data yang telah terkumpul selama beberapa tahun,
misalnya data pembelian, data penjualan, data nasabah, data transaksi, email dan
sebagainya. Kemudian muncul pertanyaan dari pemilik data tersebut, apa yang
harus dilakukan terhadap tumpukan data tersebut.
Data mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah
yang sangat banyak dan mengambil informasi informasi yang berkaitan dengan
apa yang diperlukan seperti apa yang biasa dilakukan oleh seorang analis. Dengan
bertambah banyaknya jumlah data yang ada dalam model bisnis yang kita lakukan
dalam perusahaan ini, maka peran analis untuk menganalisa data secara manual

perlu digantikan dengan aplikasi yang berbasis komputer yang dapat menganalisa
data secara otomatis menggunakan alat yang lebih kompleks dan canggih.
Data warehouse adalah database yang berisi data dari beberapa system
operasional yang terintegrasi dan terstruktur sehingga dapat digunakan untuk
mendukung analisa dan proses pengambilan keputusan dalam bisnis.
Data warehouse didesain untuk kita bisa melakukan query secara cepat. Informasi
diturunkan dari data lain, dilakukan rolling up untuk dijadikan ringkasan,
dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, atau
melihat pola yang menarik atau melihat trend (kecenderungan).
Ada empat tugas yang bisa dilakukan dengan adanya data warehouse
1. Pembuatan laporan
Pembuatan laporan merupakan salah satu kegunaan data warehouse yang paling
umum dilakukan. Dengan menggunakan query sederhana didapatkan laporan
perhari, perbulan, pertahun atau jangka waktu kapanpun yang diinginkan.
2. On-Line Analytical Processing (OLAP)
OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para
pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah
SQL. Hal ini dimungkinkan karena pada konsep multi dimensi, maka data yang
berupa fakta yang sama bisa dilihat dengan menggunakan fungsi yang berbeda.
Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drilldown. Drill-down adalah kemampuan untuk melihat detail dari suatu informasi
dan roll-up adalah kebalikannya.
3. Data mining
Data mining merupakan proses untuk menggali pengetahuan dan informasi baru
dari data yang berjumlah banyak pada data warehouse, dengan menggunakan
kecerdasan buatan (Artificial Intelegence), statistik dan matematika. Data mining
merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara
data dan pemakainya.
Beberapa solusi yang diberikan data mining antara lain :

Menebak target pasar


Data mining dapat mengelompokkan (clustering) model-model pembeli dan
melakukan klasifikasi terhadap setiap pembeli dan melakukan klasifikasi terhadap
setiap pemebeli sesuai dengan karakteristik yang diinginkan.
Melihat pola beli dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu.
cross-market analysis
Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk
dengan produk lainnya.
Profil pelanggan
Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga
dapat diketahui kelompok pembeli tertentu cenderung kepada suatu produk apa
saja.
Informasi summary
Data mining dapat membuat laporan summary yang bersifat multi dimensi dan
dilengkapi dengan informasi statistik lainnya.
4. Proses informasi executive
Data warehouse dapat membuat ringkasan informasi yang penting dengan tujuan
membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan
menggunakan data warehouse segala laporan telah diringkas dan dapat pula
mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses
pengambilan keputusan. Informasi dan data pada laporan data warehouse menjadi
target informative bagi user.
Karakteristik Data Warehouse
1. Subject Oriented (Berorientasi subject)
Data warehouse berorientasi subject artinya data warehouse didesain untuk
menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan
pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan

disekitar subjek-subjek utama dari perusahaan(customers,products dan sales) dan


tidak diorganisasikan pada area-area aplikasi utama(customer invoicing,stock
control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse
untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari
pada aplikasi yang berorientasi terhadap data.
Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek
bukan terhadap proses. Secara garis besar perbedaan antara data operasional dan
data warehouse yaitu :
Data Operasional

Data Warehouse

Dirancang berorientasi hanya pada aplikasiDirancang berdasar pada subjek-subjek


dan fungsi tertentu

tertentu(utama)

Focusnya pada desain database dan proses Focusnya pada pemodelan data dan desain
data
Berisi rincian atau detail data

Berisi data-data history yang akan dipakai


dalam proses analisis

Relasi

antar

terkini(selalu

table

berdasar

mengikuti

aturanBanyak aturan bisnis dapat tersaji antara

rule(aturan)tabel-tabel

terbaru)
2. Integrated (Terintegrasi)
Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber
yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu
dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang
ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data
warehouse itu sendiri.
Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten
dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam
struktur pengkodean dan konsisten dalam atribut fisik dari data.
Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang
mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin

dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama
tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi
nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada
lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data
tersebut

bisa

dikategorikan

sebagai

data

yang

terintegrasi

karena

kekonsistenannya.
3. Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang
waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur
keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :
Cara yang paling sederhana adalah menyajikan data warehouse pada rentang
waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan
dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur
waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data
tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan
tetap ada secara implisit didalam data tersebut.
Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui
serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian
data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat
read-only.
4. Non-Volatile
Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data
pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem
operasional secara reguler. Data yang baru selalu ditambahkan sebagai suplemen
bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut
secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan
dengan data sebelumnya.

Berbeda dengan database operasional yang dapat melakukan update,insert dan


delete terhadap data yang mengubah isi dari database sedangkan pada data
warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data
(mengambil data) dan akses data (mengakses data warehouse seperti melakukan
query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating
data).
Peranan Penting OLTP VS OLAP dalam Data Warehouse
OLTP (Online Transactional Processing / OLTP)
Sistem informasi adalah sekumpulan fungsi yang bekerja secara bersama-sama
dalam

mengelola,

mengumpulkan,

menyimpan,

memproses

serta

mendistribusikan informasi. Dalam dunia kerja mengolah sistem informasi harus


dibuat semudah mungkin, sehingga user dapat menggunakan hasil dari sistem
informasi secara mudah. Untuk itu, sistem informasi haruslah efisien, transparan
dan terintegarsi. Untuk megolah suatu sistem informasi dibutuhkan salah satu
komponen yaitu sistem informasi manajemen yang berbasis komputer yang
dinamakan sistem basis data (database).
Sistem basis data mempunyai peran penting sebagai tempat pusat penyimpanan
data yang mendukung kegiatan operasional (Online Transactional Processing /
OLTP).
Ciri-ciri umum sistem OLTP adalah :
Mendukung jumlah pengguna yang banyak yang sering menambah dan merubah
data transaksi
Mengandung data dalam jumlah besar, termasuk di dalamnya validasi data
transaksi
Memiliki struktur yang kompleks dan rumit
Diarahkan secara maksimal untuk melayani aktivitas transaksi harian
Menyediakan teknologi infrastruktur yang mendukung operasional transaksi data
dalam perusahaan

Sebuah sistem OLTP yang umum memiliki karakteristik seperti jumlah user yang
sangat banyak yang secara serentak mengolah dan menambah data. Dalam hal ini,
apabila banyak user yang melakukan pengolahan dan penambahan data akan
membebani program, saat database berkembang semakin banyak dan kompleks,
waktu respon akan semakin berkurang disebabkan bertumpuknya pemakaian
sumber daya yang tersedia, sehingga untuk membuat suatu keputusan sangatlah
susah dan membutuhkan waktu yang lama dan untuk membuat query satu persatu
pada sumber data tidak praktis dan efisien, apalagi sumber data yang ada
menyimpan current (arus data), sedangkan data yang dibutuhkan oleh para
pembuat keputusan adalah data-data historis. Sebagai contoh data histori
dibutuhkan pada pembuatan informasi mengenai transaksi setoran/tarikan dengan
nominal tertentu per bulan per cabang, besaran rata-rata transaki per cabang per
bulan, transaksi yang di-reverse, dan lain-lain. Dengan adanya masalah diatas
maka data warehouse mempunyai solusi dalam mengolah data historis dari
berbagai sumber data tersebut.
Data warehouse menyediakan sebuah interface gabungan terhadap data, sehingga
query-query pendukung keputusan mudah ditulis. Data warehouse juga dapat
menyimpan sumber data yang heterogen (data yang tersebar pada database Online
Transactional Processing) dipindahkan ke data yang homogen, sehinggga dengan
kemampuan akses data warehouse maka upaya untuk pendukung keputusan dapat
diakses dengan cepat, efisien dan akurat. Hal penting untuk menjaga Data
Warehouse adalah dengan selalu memantau kekinian data yang tersimpan, dengan
membuat katalog data dan disimpan secara terpisah dalam suatu sistem repositori
meta data yang menyimpan informasi sumber data terkini.
OLAP (OnLine Analytical Processing)
OLAP (OnLine Analytical Processing) adalah jenis perangkat lunak yang
digunakan untuk melakukan permintaan terhadap data dalam bentuk yang
kompleks dan bersifat sementara serta sewaktu-waktu. OLAP memanipulasi dan
menganalisis data bervolume besar dari berbagai perspektif (multidimensi). Oleh
karena itu OLAP seringkali disebut analisis data multidimensi.

OLAP bekerja dengan data dalam bentuk multidimensi. Yang umum, bentuk tiga
dimensi diwujudkan ke dalam bentuk kubus data.
Tujuan OLAP adalah menggunakan informasi dalam sebuah basis data (data
warehouse) untuk memandu keputusan-keputusan yang strategic. Beberapa
contoh permintaan yang ditangani oleh OLAP:
Berapa jumlah penjualan dalam kuartal pertama?
Berapa jumlah penjualan per kuartal untuk masing-masing kota?
Tampilkan 5 produk dengan total penjualan tertinggi pada kuartal pertama.
Kadangkala permintaan yang ditangani OLAP bisa diselesaikan dengan
pernyataan SQL sederhana, tetapi dalam banyak kasus tidak dapat diekspresikan
dengan SQL. OLAP dapat digunakan untuk melakukan konsolidasi, drill-down,
dan slicing and dicing. Di bawah ini adalah kegunaan dari konsolidasi, drill-down,
dan slicing and dicing yaitu:
Konsolidasi
melibatkan pengelompokan data. Sebagai contoh kantor-kantor cabang dapat
dikelompokkan menurut kota atau bahkan propinsi. Transaksi penjualan dapat
ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup
digunakan untuk menyatakan konsolidasi.
Drill-down
Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang
memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail.
Sebagai contoh, mula-mula data yang tersaji didasarkan pada kuartal pertama.
Jika dikehendaki, data masing-masing bulan pada kuartal pertama tersebut bisa
diperoleh, sehingga akan tersaji data bulan Januari, Februari, Maret, dan April.
Slicing and dicing (atau dikenal dengan istilah pivoting)
Untuk menjabarkan pada kemampuan untuk melihat data dari berbagai sudut
pandang. Data dapat diiris-iris atau dipotong-potong berdasarkan kebutuhan.

Sebagai contoh, dapat diperoleh data penjualan berdasarkan semua lokasi atau
hanya pada lokasi-lokasi tertentu.
Adapun karakterisik aplikasi-aplikasi OLAP:
permintaan data sangat kompleks,
jarang ada pemutakhiran, dan
transaksi mengakses banyak bagian dalam basis data.
Contoh perangkat lunak OLAP:
Express Server (Oracle)
PowerPlay (Cognos Software)
Metacube (Informix/Stanford Technology Group)
HighGate Project (Sybase
Sistem OLAP pada masa awal menggunakan larik multidimensi di dalam memori
untuk

menyimpan

data

kubus.

Sistem

seperti

ini

disebut

MOLAP

(Multidimensional OLAP). Pada perkembangan selanjutnya, data disimpan dalam


bentuk basis data relasional. Sistem OLAP seperti ini dikenal dengan sebutan
ROLAP (Relational OLAP), selain MOLAP dan ROLAP, terdapat pula sistem
yang dinamakan 1iybrid OLAP (HOLAP), yaitu sistem OLAP yang menyimpan
beberapa ringkasan dalam memori dan menyimpan basis data dan ringkasanringkasan yang lain dalam basis data relasional.
Contoh skema star, tabel penjualan sebagai konektor tabel produk, lokasi dan
waktu:
Keuntungan Data Warehouse
Data warehouse merupakan pendekatan untuk menyimpan data dimana sumbersumber data yang heterogen(yang biasanya tersebar pada beberapa database
(OLTP) dimigrasikan untuk penyimpanan data yang homogen dan terpisah.
Keuntungan dengan menggunakan data warehouse adalah :
Data diorganisir dengan baik untuk query analisis dan sebagai bahan untuk
pemrosesan transaksi.

Perbedaan diantara struktur data yang heterogen pada beberapa sumber yang
terpisah dapat diatasi.
Aturan

untuk

transformasi

data

diterapkan

untuk

memvalidasi

dan

mengkonsolidasi data apabila data dipindahkan dari database OLTP ke data


warehouse.
Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem
produksi.
MOTIVASI DATA WAREHOUSE
Tekanan terhadap database OLTP untuk proses query terlalu besar
Data warehousing didisain untuk proses pengambilan yang efesien
Data pada sistem yang berbeda-beda umumnya tidak konsisten, kualitasnya buruk
dan disimpan di dalam format yang berbeda
Mengurangi biaya dalam menyediakan data untuk keperluan pengambilan
keputusan
Mendukung untuk memfokuskan diri pada proses bisnis lengkap
Mendukung inisiatif baru
Sumber-sumber industri menyebutkan bahwa ROI berjumlah rata-rata 401%
dalam tiga tahun
Tetap kompetitif
Proses Data Warehouse
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar
adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa
saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari
hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Karenanya data warehouse seharusnya dipahami sebagai suatu proses, yang
memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan
ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif

karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan
analisnya sehingga perlu dilakukan desain ulang prosesnya.
Metodologi Data Warehouse
1. Metode NCR (Non Conform report)
3NF dan model perusahaan (penekanan pada normalisasi dan DBMS standar)
Penekanan pada arsitektur
Digunakan dalam beberapa sistem yang sangat besar
2. Metode SAS
Datawarehouse cepat
Keterkaitan selama 3 bulan

Prototyping 2 bulan + 1 bulan untuk pengembangan solid

Kembali lagi

Banyak menggunakan prototyping


Bergantung pada kemampuan analis sistem yang bagus
3. Metode Microsoft
Memberikan perhatian pada pengguna secara eksplisit
Terkait dengan beberapa tool yang spesifik yang mengintegrasikan RDBMS
dan OLAP (misalnya SQL server dan Layanan Analisa/Pelaporan)
4. Pendekatan Inmor
Kelebihan

Integrasi

Perulangan

Arsitektur pengembangan berimbang yang terkonsentrasi


Kelemahan

Kesulitan dan biaya mendisain model data perusahaan

Pengertian model ER (dalam 3NF)

Feedback dari penggunaan?

5. Metode Ives
Kelebihan :
Teknik untuk perumusan keperluan
Integrasi
Teknik representasi berganda
Kelemahan :
Kekompleksan dan potensi berbiaya tinggi
Waktu penyelesaian
Kemampuan beradaptasi (bagaimana bila strategi bisnis berubah?, Feedback
pengguna?)
6. Metode Kimball
Kelebihan :
Pemodelan berdimensi
Mudah dimengerti
Kelemahan :
Integrasi
Mapping dari pemodelan berdimensi ke sistem yang sudah ada
7. Metode McFadden
Kelebihan :
Partisipasi pengguna
Fokus pada pencarian sumber data
Kelemahan :
Membagi data warehouse yang besar

Tidak ada guidelines untuk desain secara fisik


Perbandingan 4 metode
Strategi Pencaharian Sumber Data Warehouse
Sebelum mengembangkan suatu data warehouse, sangat penting untuk
mengembangkan strategi balanced data warehouse yang sesuai dengan kebutuhan
dan populasi user. Siapakah audiencenya? Apa ruang lingkupnya? Tipe data
warehouse seperti apa yang harus dipilih? Terdapat beberapa strategi yang dapat
digunakan oleh suatu organisasi untuk dapat membuat suatu data warehouse.
Salah satunya adalah dengan menetapkan lingkungan Virtual Data Warehouse.
Virtual Data Warehouse dibuat dengan cara:
menginstal kumpulan akses data, direktori data dan fasilitas manajemen proses,
training user
memonitor bagaimana data warehouse digunakan dan kemudian
berdasarkan pemakaian actual, membuat suatu physical data warehouse untuk
mendukung permintaan yang banyak.
Strategi yang kedua adalah dengan membangun copy dari data operasional dari
satu system operasional dan memungkinkan data warehouse dari sekumpulan tool
untuk mengakses informasi. Strategi ini mempunyai keuntungan yaitu sederhana
dan cepat. Sayangnya, jika data yang ada berkualitas jelek dan akses ke data
tersebut kurang baik, maka pendekatan ini akan menimbulkan masalah yang
signifikan.
Pada akhirnya, Strategi data warehouse yang optimal adalah memilih populasi
user berdasarkan nilai dari perusahaan dan melakukan analisa persoalan,
pertanyaan dan kebutuhan akses data mereka. Berdasarkan kebutuhan ini,
prototype data warehouse dibangun dan dipopulasikan sehingga user dapat
bereksperimen dan memodifikasi requirement mereka. Sekali terbentuk
persetujuan tentang kebutuhan mereka, kemudian data dapat diambil dari database
operasional yang ada dalam perusahaan ataupun dari data source yang lain dan
diload kedalam data warehouse. Jika diperlukan, tool untuk mengakses informasi

dapat memungkinkan user untuk mendapatkan akses untuk mengambil data


menggunakan tool favorit mereka atapun untuk memperkenankan pembuatan dari
informasi multi-dimensi yang berperforma tinggi menggunakan datawarehouse
sebagai dasarnya.
Sebagai analisa akhir, tidak ada pendekatan untuk membangun suatu data
warehouse yang dapat sesuai dengan kebutuhan setiap perusahaan. Kebutuhan
setiap perusahaan berbeda satu sama lain sebagaimana konteks dari perusahaan
tersebut. Sebagai tambahan, sejak teknologi data warehouse berkembang seprti
yang sudah kita pelajari, hanya pendekatan praktislah yang berkembang
sebenarnya.
A. Strategi Pencarian Sumber (Masalah)
B. Strategi Pencarian Sumber (Mengembangkan Pertanyaan)
Bagaimana proses evolusi direncanakan?
Bagaimana keuntungan dan ROI ditentukan?
Bagaimana masalah kepemilikan data dan tanggung jawab dipecahkan?
Bagaimana budaya organisasi terkait dengan data warehousing?
Skil dan sumber daya apa yang diperlukan?
Apa standar yang sesuai untuk diterapkan?
C. System Penyampaian Pengembangan dan Penggunaan
Perlu untuk menyediakan user interface yang mudah digunakan dan berkualitas
Memonitor penggunaan
Pentingnya Menemukan sponsor bisnis
Alokasi Menyediakan waktu untuk mengembangkan kasus Bisnis, Contoh:
Pemborosan waktu dalam memperoleh dukungan sponsor bisnis kurang baik
Mengatur harapan (berorientasi positif)
Harus mempunyai tujuan yang jelas dan dipahami

Data warehousing adalah kegiatan berskala besar, perlu pendalaman dalam


mendapatkannya
Bersiap dengan ketidak setujuan dari beberapa kelompok di dalam organisasi
Memiliki suatu kasus kuat mengembangkan sebuah data warehouse sebagai data
infrastructure untuk EIS dan DSS
Menyeimbangkan antara tujuan jangka pendek dan tujuan jangka panjang
Style pengambilan keputusan dan keefektifan
Respon yang berkelanjutan
Kualitas data warehouse yang digunakan harus tinggi
Visualisasi data dapat membantu pengertian
Kemampuan OLAP sangat penting dalam melakukan pengambilan data yang
fleksibel dan pemanipulasian data
Kemampuan Data Mining dapat membantu menemukan pola baru di dalam data
D. System Penyampaian Pertanyaan
Bagaimana keefektifan data warehouse ditentukan dan diukur?
Bagaimana tehnik data mining yang rumit dapat digunakan secara efektif oleh
para manajer bisnis?

Arsitektur Dan Model Data Mining


Salah satu kunci data warehouse adalah fleksibilitas. Sangat penting untuk diingat
adalah semakin sukses strategi suatu data warehouse strategy maka semakain
banyak user yang ingin ditambahkan kedalamnya.
Keterangan :
1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten
dan noise)
2. Data integration : penggabungan data dari beberapa sumber

3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai


untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user
Model Data Mining
Prediction methods
Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang
akan datang.
Description Methods
Mendapatkan pola penafsiran (human-interpretable patterns) untuk menjelaskan
data.
Tools Data Mining
Karateristik-karateristik penting dari tool data mining meliputi :

Data preparation facilities

Selection of data mining operation (algorithms)

Product scalability and performance

Facilities for visualization of result

Data mining tool, meliputi :

Integral Solution Ltds Clementine

DataMind Corps Data Crusher

IBMs Intelligent Miner

Silicon Graphics Inc.s MineSet

Informations Discovery Inc.s Data Mining Suite

SAS Institute Inc.s SAS System and Right Information SystemThought.

Tools Data Warehouse


a)

Software

Back end:

Data sourcing: ETL

Data quality

Data storage: pemandu agregat

Meta-data manajemen

Front end:

OLAP

ROLAP

Spreadsheet

Pembuat laporan

Tools Data Mining

Analisa Statistik

b)

Hardware

Desktop dan Peralatannya, menggunakan Akses card swipe


Teknologi network seperti Cabling, modems, NIC, routers dll
Servers seperti Server database, server ETL, server administrasi, tool metadata dll
Backup, yang perlu diperhatikan bahwa Recovery sangat menyulitkan dan lokasi
mendapatkan Source Systems
Kriteria yang Paling Diperhatikan Dalam Memilih Tools
Pengertian vendor terhadap data warehouse
Buat pilihan yang dimengerti mengenai teknologi yang dipilih
V endor bisa melakukan dan percaya diri
Pekerjakan mereka dengan baik
Data Preprocessing

Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah


untuk mempersiapkan proses prosedur yang lainnya. Dalam data mining
menstrasformasi data ke suatu format yang prosesnya lebih mudah dan efektif
untuk kebutuhan pemakai, contohnya Neural Network. Terdapat beberapa alat dan
metode yang berbeda yang digunakan untuk preprocessing seperti :

Sampling : menyeleksi subset representatif dari populasi data yang besar.

Transformation : memanipulasi data mentah untuk menghasilkan input

tunggal.

Denoising : menghilangkan noise dari data

Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik

Feature extration : membuka spesifikasi data yang signifikan dalam konteks

tertentu.
Knowledge Discovery In Database (KDD)
KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi
dan visualisasi dari pola-pola sejumlah kumpulan data. Knowledge discovery in
databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan
mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat
sah, baru, dapat bermanfaat dan dapat dimengerti.
Tahapan Proses KDD
1. Data Selection
Menciptakan himpunan data target ,

pemilihan himpunan data, atau

memfokuskan pada subset variabel atau sampel data, dimana penemuan


(discovery) akan dilakukan. Pemilihan (seleksi) data dari sekumpulan data
operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD
dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining,
disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Preprocessing/cleaning

Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti


penghapusan noise dilakukan. Sebelum proses data mining dapat dilaksanakan,
perlu

dilakukan

proses cleaning pada

data

yang

menjadi

fokus

KDD.

Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data
yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak
(tipografi). Dilakukan proses enrichment, yaitu proses memperkaya data yang
sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk
KDD, seperti data atau informasi eksternal.
3. Transformation
Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung
kepada goal yang ingin dicapai. Merupakan proses transformasi pada data yang
telah dipilih, sehingga data tersebut sesuai untuk prosesdata mining. Proses ini
merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi
yang akan dicari dalam basis data
4. Data mining
Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau
algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma
yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
Pemilihan algoritma data mining untuk pencarian (searching)
5. Interpretation/ Evaluation
Penerjemahan pola-pola yang dihasilkan dari data mining. Pola informasi yang
dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah
dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari
proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang
ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya
PENUTUP
Data warehouse merupakan suatu cara/metode dari suatu database yang
berorientasi kepada subjek, non-volatile, time-variance dan terintegrasi yang

digunakan untuk mempermudah para pengambil keputusan dalam memecahkan


masalah.
Keberadaan data warehouse sangat penting sebagai tools dari DSS, karena data
warehouse memang digunakan untuk itu. Dengan adanya data warehouse,
diharapkan suatu perusahaan dapat lebih unggul dari kompetitornya dan lebih jeli
lagi dalam melihat peluang pasar.

Anda mungkin juga menyukai