Anda di halaman 1dari 16

BAB VI BASIS DATA TERDISTRIBUS (DISTRIBUTED DATABASE)

6.1 BASIS DATA TERDISTRIBUSI (BDT)

adalah sekumpulan database yang saling terhubung secara logikal dan secara fisik terdistribusi pada berbagai tempat melalui jaringan komputer. Sistem Manajemen Basis Data Terdistribusi (SMBDT)/ Distributed Database Management System (DDBMS) Software yang mengelola BDT dan menyediakan mekanisme agar distribusi tersebut transparent di hadapan user. Distributed Database System menggunakan DDBMS. 6.1.1 (DDBS) /Sistem Basis Data Terdistribusi (SBDT) adalah DDB yang

CIRI CIRI SISTEM !A"# BU$A" MERU%A$A" SBDT

iri!ciri untuk sistem yang bukan merupakan SBDT adalah " #. Sistem yang berupa sekumpulan file. $. Berbagai arsitektur fisik berkait dengan sistem multiprocessor berikut" a. Shared Memory Multiprocessor (disebut juga dengan tightly couple) Multiprosesor dengan memori yang saling berbagi. %ika share memory merupakan primary memory& maka sistem multiprosesor ini disebut shared memory/tightly coupled .

b.

Shared Disc Multiprocessor (disebut juga dengan loosely couple) Multiprosesor dengan memori yang saling berbagi. %ika share memory merupakan secondary memory& maka disebut shared disk/loosely coupled.

c.

Shared Nothing Multiprocessor System Model shared nothing adalah tiap prosesor masing!masing mempunyai memori primer dan sekunder maupun periperalnya yang berkomunikasi dengan prosesor lain melalui high speed interconect (misalnya bus atau switch)

&.

Basis Data ter'usat 'ada jarin(an Bentuk basis data terpusat pada jaringan

Se'erti A'a)a* !an( Dima)sud Den(an SBDT +

Bebera'a ,iri -an( mendasari SBDT ada.a* / #. Data disimpan pada sejumlah tempat. Setiap tempat secara logik terdiri dari processor tunggal $. Processor pada tempat yang berbeda tersebut dihubungkan dengan jaringan komputer. '. SBDT bukan sekumpulan file yang berada pada berbagai tempat tetapi sebuah Database pada berbagai tempat. (. Setiap tempat mempunyai kemampuan untuk secara mandiri memproses permintaan user yang membutuhkan akses ke data di tempat terebut& dan juga mampu untuk memproses data yang tersimpan di tempat lain. $euntun(an %en((unaan SBDT ada.a* / #. )engelolaan secara transparan data terdistribusi dan replicated. *pa yang diharapkan dari transparansi pengelolaan data + a. Mengurangi ketergantungan data b. Transparansi jaringan c. Transparansi replikasi d. Transparansi fragmentasi

$. '.

Mengacu pada struktur organisasi. Meningkatkan kemampuan untuk berbagi dan otonomi lokal. Melakukan penyebaran data memungkinkan kelompok lokal melakukan kendali yang lebih mandiri pada data! data mereka. )ada gilirannya ini memungkinkan perbaikan pada integritas data dan perbaikan pada administrasi data. )ada saat yang sama& pengguna!pengguna dapat mengakses data yang tidak bersifat lokal saat dibutuhkan. )erangkat keras dapat dipilih untuk lokasi lokal agar sesuai dengan kebutuhan pemrosesan lokal. (. Meningkatkan ketersediaan data. ,. Meningkatkan kehandalan. Saat sistem terpusat mengalami kegagalan& basis data menjadi tidak dapat digunakan oleh pengguna. Sistem tersebar akan terus berfungsi (dengan kekurangan tertentu) saat salah satu komponennya mengalami kegagalan. -. Meningkatkan unjuk kerja. .. Menudahkan pengembangan sistem. /. )ertumbuhan secara modular. Misalkan organisasi berkembang/berekspansi ke lokasi yang baru atau menambah kelompok kerja (workgroup maka sering kali lebih mudah dan lebih ekonomis untuk menambah komputer lokal dan data!data yang berhubungan pada jaringan tersebar alih!alih mengembangkan komputer besar terpusat. %uga dengan sistem tersebar& kemungkinan terjadinya kekacauan pada pengguna lebih kecil saat komputer pusat dimodifikasi atau dikembangkan. 0. Biaya komunikasi yang lebih rendah. Dengan sistem tersebar& data dapat dilokalisasi dekat dengan pengguna yang membutuhkan. 1al ini akan mengurangi biaya komunikasi dibandingkan dengan sistem terpusat. #2. 3aktu tanggap yang lebih baik. Bergantung pada bagaimana data disebarkan& kebanyakan permintaan data dapat dipenuhi dengan data yang tersimpan pada lokasi yang bersangkutan tempat permintaan itu dilakukan. 4ni mempercepat proses !uery dan penundaan (delay oleh komputer pusat dapat diminimisasi. %uga mungkin untuk memecah !uery yang kompleks ke sub!uery-sub!uery bagiannya sehingga dapat diproses secara paralel pada lokasi!lokasi yang berbeda5 hasilnya adalah !uery yang lebih cepat. $eru(ian %en((unaan SBDT ada.a* / #. 6ompleksitas manajemen $. 6ontrol integritas lebih sulit '. Biaya pengembangan (. 6eamanan ,. 6urang standarisasi -. Menambah kebutuhan penyimpanan .. 7ebih sulit dalam mengatur lingkungan data /. Menambah biaya pelatihan 0. 1arga software yang mahal #2. 6emungkinan kesalahan lebih besar ##. Biaya pemrosesan tinggi

6.1.0

$1M%1"E" SOFTWARE DIDA2AM ME"#EMBA"#$A" DATABASE TERDISTRIBUSI

6omponen software di dalam mengembangkan Database terdistribusi adalah " #. "he Database management component (DB) $. "he data communication component (D ) '. "he data dictionary (DD)& 8hich is e9tended to represent information about the distribution of data in the net8ork #. "he distributed Database component (DD$
T T T

23,a. Database 1

DB DD

DC

DDB SITE 1 SITE 0

DD 23,a. Database 0 DB DC

DDB

Ti'e sistem di atas ada.a* mensu''3rt / #. %emote Database access by an application program . &eature ini sangat penting dan harus disediakan oleh semua sistem yang memiliki komponen Database terdistribusi. $. Some degree of distribution transparency. Support for Database administration and control. &eature ini termasuk tool untuk memonitor Database& menggabungkan informasi menyangkut penggunaan Database dan keberadaan file-file data pada site yang berbeda. 6.1.& M1DE2 ARSITE$TUR DBMS

Model arsitektur untuk DBMS adalah sebagai berikut"

:ambar. *lternatif !alternatif implementasi DBMS A. Autonomy 'utonomy mengacu pada pendistribusian kontrol& bukan pada data. 'utonomy dikelompokkan atas " 1. Ti(*t Inte(rati3n (mage tunggal dari keseluruhan Database tersedia untuk semua user yang ingin berbagi informasi yang terdapat pada banyak Database. )ser hanya melihat data secara logikal tersimpan pada satu Database pada satu tempat. 0. Semi 1t3n3m3us DBMS dapat beroperasi secara independen tetapi akan bekerja secara bersama untuk membuat lokal data dapat dipakai bersama!sama.

&.

Is3.asi T3ta. Satu sistem memiliki satu DBMS dan tidak dapat berkomunikasi dengan DBMS yang lain.

4 A.ternati5 arsite)tura. Autonomy / * (autonomy)& 2;tight integration& #;semiaoutonomous systems& $;total isolation B. Distribution Merupakan kebalikan dari autonomy& distribusi merujuk ke data. Terdapat dua alternatif& yaitu " distribusi client/ser*er dan distribusi peer-to-peer (full distribusi . 1. Distribusi client ser!er" Ser*er menyediakan data management sedangkan client menyediakan aplikasi termasuk user interface. a. Multiple client-single ser*er dari sudut pandang manajemen data tidak berbeda dengan centrali+ed Database sepanjang data hanya terletak di satu ser*er. b. Multiple client-multiple ser*er. *da dua alternatif strategi manajemen " - <ungsi data manajemen dipusatkan pada ser*er. - Tiap client mengetahui home ser*ernya dan kemudian berkomunikasi dengan ser*er lain bila dibutuhkan. )endekatan ini memudahkan ser*er& tapi membebani mesin client dengan penambahan tanggung ja8ab. (lebih mirip ke peer-to-peer)
User Inter5a,e A''.i,ati3n %r3(ram C.ient DBMS C3mmuni,ati3n S35t7are S82 ;ueries 1 ' e r a t I n ( Resu.t re.ati3n C3mmuni,ati3n S35t7are Semanti, Data C3ntr3..er 8uer- 1rtimi9er Transa,ti3n Mana(er Re,3:er- Mana(er Runtime Su''3rt %r3,ess3r S-stem 6..

1'eartin( S-stem

Database

0"

Distribusi #eer$to$#eer %&ull distribusi)" Tidak ada perbedaan antara mesin client dan mesin ser*er. Setiap mesin mempunyai fungsi DBMS utuh dan dapat berkomunikasi dengan mesin yang lain untuk mengeksekusi !uery dan transaksi. a. *rsitektur umum DBMS telah dijabarkan sebelumnya. b. Physical data organi+ation tiap mesin bisa jadi berbeda. Berarti dibutuhkan indi=idual internal schema pada tiap site& disebut local internal schema (74S). c. ,nterprise *iew dijabarkan oleh global conceptual schema (: S) d. Telah diterangkan bah8a data pada distributed Database biasanya difragmenasi dan direplikasi. >ntuk menghandlenya pengorganisasian data secara logis di tiap site perlu dijabarkan& sehingga dibutuhkan a third layer dalam arsitektur ini yaitu local conceptual schema (7 S). e. *khirnya aplikasi dan pengaksesan user ke Database dilayani oleh e-ternal schemas (?Ss).

Users E<terna. S,*ema E<terna. :ie7 E<terna. :ie7 E<terna. :ie7

C3n,e'tua. S,*ema

C3n,e'tua. :ie7

Interna. S,*ema

Interna. :ie7

4 A.ternati5 arsite)tura. Distribution / D (distribution)& 2;no distribution& #;client/ ser=er& $;peer!to!peer C. 'eterogeneity" .eterogeneity merupakan keragaman bentuk di dalam distributed systems& mulai dari hardware heterogeinity hingga networking protocols. >tamanya adalah keragaman menyangkut model data& bahasa !uery dan transaction management protocols. 1eterogen bisa terjadi pada hardware atau pada sebagian protokol jaringan atau perbedaan manajer data. 4 A.ternati5 arsite)tura. 'eterogeneity / 1 (heterogeinity)& 2 ; homogeneous systems& # ; heterogenous systems *rsitektur SBDT jika dipandang dari fungsi setiap komponen dari struktur dapat dibagi menjadi ' yaitu " #. /lient-Ser*er System $. /ollaborating System $. Middleware System 1. (lient$Ser!er System Sistem berbasis client-ser*er memiliki satu atau lebih client proses dan satu atau lebih ser*er proses. /lient proses dapat mengirimkan sebuah !uery ke beberapa ser*er proses. /lient bertanggung ja8ab terhadap layanan antar muka dan ser*er bertanggung ja8ab untuk mengatur data dan mengeksekusi transaksi. *rsitektur berbasis client-ser*er ini sangat populer karena beberapa alasan " Sederhana dalam implementasi karena adanya pemisahan fungsi dan pemusatan ser*er. Mesin ser*er yang mahal menjadi tidak muba@ir karena client mesin yang murah dapat mengoptimalkan kerja ser*er )ser lebih familiar menjalankan antar muka grafis pada mesin client& daripada pada mesin ser*er. Aang harus diingat saat menulis aplikasi pada sistem berbasis client-ser*er adalah membedakan antara sisi client dan sisi ser*er serta harus tetap mempertahankan komunikasi antara keduanya seefisien mungkin. 6hususnya jika kita membuka jalur dan kemudian mengambil data dari ser*er dapat menimbulkan beban di jaringan. Aang masih perlu dipelajari adalah menyimpan sementara (cache pada sisi client untuk mengurangi kepadatan jalur jaringan& meskipun harus tetap memperhatikan status data. 0. (ollaborating System *rsitektur client-ser*er tidak dapat mengirimkan sebuah !uery tunggal untuk dikerjakan oleh beberapa ser*er& hal ini disebabkan client proses harus dapat memecah sebuah !uery menjadi beberapa sub!uery untuk dieksekusi pada beberapa lokasi dan kemudian menggabungkan potongan ja8aban ke sub !uery yang lain. 1al

ini mengakibatkan client proses mengerjakan pekerjaan yang sangat kompleks sehingga tidak dapat dibedakan dengan ser*er proses. 6esulitan di atas diatasi dengan collaborating ser*er system yang memungkinkan untuk memiliki beberapa ser*er Database dan setiap ser*er proses dapat menjalankan transaksi menggunakan data lokal kemudian secara bersama!sama mengeksekusi transaksi yang melibatkan banyak ser*er. 6etika sebuah ser*er menerima !uery yang membutuhkan akses ke data pada lain ser*er& maka ser*er akan membangkitkan sub!uery yang sesuai untuk dieksekusi oleh ser*er yang lain dan kemudian mengambil hasil !uery tersebut untuk digunakan sebagai data agar dapat menghasilkan hasil akhir yang diminta !uery a8al. Aang harus diperhatikan adalah proses pemecahan !uery menjadi sub !uery harus mempertimbangkan biaya komunikasi jaringan. &. Middle)are System *rsitektur middleware memungkinkan !uery tunggal untuk dikerjakan oleh banyak ser*er& tetapi tidak perlu semua ser*er Database dapat melakukan strategi eksekusi !uery pada banyak ser*er. 4de ini muncul karena hanya ada satu ser*er Database yang dapat mengatur !uery dan transaksi pada banyak ser*er& tetapi ser*er yang lain hanya dapat menangani !uery lokal dan transaksi lokal. 6ita memiliki ser*er khusus yang memiliki software untuk mengkoordinasikan eksekusi !uery dan transaksi untuk beberapa ser*er Database lainnya. Software ini disebut middleware. )ada sisi middleware akan dapat melakukan eksekusi join dan operator relasi lain yang diperoleh dari ser*er lain& tetapi ser*er ini tidak mengatur data sendiri. DATA WARE'OUSE

6.0

Prepository (arsip) informasi yang dikumpulkan dari banyak sumber disimpan pada skema yang disatukan di satu situs tunggal. Basis data dimana data dikumpulkan dari banyak sistem untuk mendukung pelaporan dan pengambilan keputusan manajemen. Begitu data dikumpulkan& data disimpan selama 8aktu yang lama. Data warehouse menyediakan satu antarmuka terkonsolidasi tunggal& mempermudah pembuatan !uery yang mendukung pembuatan keputusan. Dengan mengakses informasidari Data warehouse0 pembuat keputusan menjamin sistem pengolahan transaksi online nya tidak terganggu. $ara)teritsi) Data Ware*ouse #. Data dikumpulkan dari sumber!sumber lain seperti sistem lama ataupun sistem B7T) $. Data dibuat konsisten dengan menyimpan di data warehouse '. Data diringkas. Data warehouse umumnya tidak menyimpan serinci sistem berorientasi transaksi (. Data berumur lebih lama. Sistem transaksi dapat mempertahankan data hanya sampai selesainya transaksi& sedangkan data warehouse dapat mempertahankan data sampai bertahun!tahun ,. Data disimpan dalam suatu format yang nyaman untuk melakukan !uery dan analisis -. Data biasanya read-only Data warehouse memungkinkan pemakai memeriksa data historis untuk melakukan analisis terhadap data ini dalam beragam cara dan membuat keputusan didasarkan pada hasil analisis. Data warehouse menggunakan beragam teknologi seperti mesin basis data dan kakas !uery& perangkat keras komputer SM) (Symmetric multiprocessing dan C*4D (%edundant 'rray of (ne-pensi*e Disk . Semua teknologi ini tanpa guna bila pemakai tidak dapat memperoleh ja8aban atas pertanyaannya secara cepat dan mudah. Begitu terbangun data warehouse& perusahaan mempunyai sumber data skala perusahaan yang konsisten yang memungkinkan ja8aban yang cepat. Data warehouse adalah satu metode penyimpanan data historis dan terpadu untuk sistem pendukung keputusan atau sistem intelijen bisnis (busines intelegence system . Data warehouse adalah pemisahan secara fisik antara sistem fisik antara sistem data operasional dengan sistem data untuk pendukung pengambilan keputusan. Data warehouse beroperasi pada satu Database& atau campuran banyak basis data perusahaan. Data warehouse membantu transformasi data menjadi pengetahuan sehingga membantu perusahaan berkompetisi. )ada data warehouse0 data diekstraksi dari banyak sistem sumber& dipadukan dan ditransformasi sebelum dimuatkan ke data warehouse.

Tujuan dari Data Ware*ouse #. Menyediakan sumber tunggal informasi koorporasi yang handal dan tunggal $. memberi pemakaian akhir sarana pengaksesan data tanpa bergantung pada laporan!laporan yang dihasilkan bagian sistem informasi '. memungkinkan analis bisnis menganalisa data korporasi& bahkan memodelkan 1what-if2 prediktif dari data. Isu #. $. '. (. ,. isu di Data Ware*ouse 6apan dan bagaimana mengumpulkan data Skema apa yang digunakan )embersihan/pemusnahan data (data cleansing Bagaimana cara melakukan propagasi pembaharuan!pembaharuan Data apa yang diringkas Si).us =idu' Dan Man5aat Data >are*3use

6.0.1

:ambar siklus 1idup Data 3arehouse


Source OLTP Systems Data marts

Data Warehouse

Cubes Clients

Transformatin tools Metadata

Data di satu atau banyak B7T) merupakan sumber data untuk data warehouse. Data di sistem sumber mele8ati proses ?T7! (e-tracting0 transforming0 loading D atau disertai cleansing menggunakan kakas transformasi. Data warehouse yang terbentuk dapat dianalisis per bagian yang disebut data mart melalui !uery secara langsung terhadap data mart atau dipandang sebagai struktur multidimensi (hypercubes . Data Mart ada.a* / #. Data Mart (departmental data warehouse adalah sistem yang mengumpulkan data yang dibutuhkan sebuah departemen atau aplikasi yang terkait. $. Data Mart dapat diimplementasikan di data warehouse dengan cara membuat *iew khusus& spesifik aplikasi tertentu. '. Data Mart dapat juga diimplementasikan sebagai materiali+ed *iew suatu departemen yang fokus pada subjek tertentu. Materiali+ed *iew adalah *iew yang tupel hasil disimpan. (. Data Mart dapat memiliki representasi berbeda dan menggunakan B7*) engine( sendiri. 6.0.0 Man5aat Data >are*3use

Secara garis besar data warehouse dapat meningkatkan produkti=itas pembuat keputusan melalui konsolidasi& kon=ersi& transformasi& dan pemaduan data operasional sehingga menyediakan pandangan konsisten terhadap perusahaan. Manfaat!manfaat yang diperoleh antara lain " #. 6emampuan mengkases data yang berskala perusahaan $. 6emampuan memiliki data yang konsisten '. 6emampuan melakukan analisis secara cepat (. Dapat digunakan untuk mencari redundansi usaha di perusahaan ,. penemuan gap anatara pengetahuan bisnis atau proses bisnis -. Merendahkan ongkos administrasi

..

Memberdayakan anggota perusahaan dengan informasi yang diperlukan untuk melakukan tugasnya secara efektif. Teknik!teknik analisis dan pengambilan keputusan yang didukung antara lain " Data Mining )roses ekstraksi informasi yang belum diketahui sebelumnya namun signifikan dari basis data besar dan menggunakannya untuk membantu pembuatan keputusan bisnis penting. 6akas intelijensia bisnis Membantu pemakai menentukan jenis informasi yang diperlukan untuk dianalisis dan cara pengaksesan serta analisis informasi itu. *nalisis data multidimensi Melakukan fungsi statistik dan matematika& peramalan dan pemodelan multidimensi. 6akas !uery terhadap data warehouse Melacak operasi!operasi bisnis sehari!hari dan mendukung kepurtusan bisnis taktis. Arsite)tur Data >are*3use :ambar arsitektur data 8arehouse adalah "
Data Source Data Source Data Source Perform batchin$ co#y from OLTP DB to tem#orary DB BATCHI ! " !I "

#. $. '. (.

6.0.&

TMP DB

Done *ith MSS+L "nter#rise Mana$er Tools Pre#arin$ Sta$in$ Area Metadata Schedular A$ent "%tractin$& Transformin$& Loadin$ '"TL( ,./1356"%tracts from TMPDB Ma##in$ Data Summari0e Data Brea2 Do*n Data A##ly Surro$ate 4eys Cleanse Data Load Data from DPA to Warehouse Database Perform #eriodic caller to "TL

Schedular A$ent OLAP " !I "

DWH DB

DPA DB

Perform Periodic Cube Definition from DWH DB

OLAP )"PO)T APPLICATIO

6.0.?

$ara)teristi) dan Ciri Data >are*3use

6arakteristik data warehouse adalah " #. Berorientasi sunjek& berarti data warehouse berfokus pada entitas!entitas bisnis le=el tinggi. 1al ini berbeda dengan sistem operasional yang lebih berurusan langsung dengan proses operasi sehari!hari. $. Terpadu& berarti data tersimpan dalam terformat yang konsisten (dalam kon=ensi penanaman& konstrain domain& atribut fisik& dan pengukuran). '. Data diringkas. Data warehouse biasanya tidak dijaga agar serinci di sistem transaksi. (. Data disimpan dalam format yang nyaman untuk !uery dan analisis. ,. Data biasanya bersifat read-only. 6.0.@ %em3de.an %ada Data >are*3use

Data 3arehouse model berbasis pada dimensi& hirarki& fakta dan sparsity. 6arakteristik model data warehouse adalah sebagai berikut " #. Data ringkasan untuk dukungan keputusan dan analisis

DPA DB

$. '. (. ,. -. .. /. 0. #2.

Banyak le=el peringkasan Data yang jarang diperbaharui Data terpadu dari banyak sumber Cancangan diarahkan oleh kebutuhan informasi yang bere=olusi Berorientasi area bisnis& fungsi atau subjek Menyediakan informasi terpadu mele8ati bagian perusahaan :ranularitas dta untuk analisis melampaui periode 8aktu yang diperluas Secara interaktif dibangun oleh area subjek Menyediakan data bersih& handal untuk data mart atau dukungan keputusan area bisnis. S)ema Bintan(

6.0.6

Basis data multidimensi yang merupakan basis sistem B7*) multidimensi memberikan solusi berorientasi basis untuk menja8ab pertanyaan kompleks. )endekatan ini mempunyai tingkat keberhasilan tinggal ketika ja8aban paling sering disusun dari matriks atau data kuantitatif.
Product dimension Product 2ey Product name Product si0e Product form Product #ac2a$e Product de#t Product cat Product subcat --Sales fact Product 2ey Or$ani0ation 2ey Store 2ey Time 2ey 8nits sold 9ty local currency sale amt 8S: sale amount 8S: cost amount #roduct $ross mar$in intercom#any #rofit royalty amount ;Time dimension Time 2ey Time date *ee2 month 9uarter year ;Store dimension Store 2ey Store name Store address Store mana$er <loor #lan ty#e Store si0e ---

Or$ani0ation dimension Or$ani0ation 2ey Di7ision name Area name )e$ion name Mar2et name ----

$ara)teristi) utama s)ema bintan( / #. )usat skema bintang adalah tabel fakta (fact table $. Tabel fakta berisi indikator!indikator kinerja pokok (6)4 D key performance indicators '. 4ndikator!indikator kinerja pokok adalah atribut!atribut dari tabel fakta (. Bbjek!objek informasi dan 8aktu adalah kunci utama di tabel fakta ,. tabel!tabel yang di sekeliling tabel fakta adalah tabel dimensi -. Tabel dimensi berisi data mengenai objek!objek informasi atau 8aktu .. Tabel fakta dan dimensi di!join dengan kunci banyak bagian di tabel fakta /. Skema bintang diimplementasikan menggunakan teknologi basis data relasional. 6.0.A =irar)i Dimensi

1irarki dimensi merupakan hubungan parent-childs. *nggota hirarki disusun umum menuju keanggota lebih spesifik.
!rocery Drin2s Soda Cola Oran$e !ra#e Beer Bottled Water Deli Meat Pa#er

Salah satu pokok keberhasilan implementasi data warehouse adalah perancangan. )erancangan sistem meliputi " #. )erancangan kapasitas pendefinisian arsitektur $. 4ntegrasi ser=ers& media penyimpanan& clients '. )erancangan skema data warehouse0 *iews (. )erancangan organisasi fisik data warehouse0 penempatan data& partisi& metode akses ,. Menghubungkan sumber " gateways0 4D$/ dri*ers -. )erancangan metadata dan pengisian aplikasi pengguna .. Membuat data warehouse dan aplikasi )embangunan data warehouse dapat dilakukan dengan dua cara& yaitu" #. "op Down a. Membuat perancangan data warehouse keseluruhan b. Menentukan sumber data dan mekanisme pemanduan data ke data warehouse $. $ottom )p a. Membuat data marst untuk setiap sub sistem yang ada b. Menggabungkan data marts untuk menghasilkan data warehouse utuh 6.& DATA MI+I+,

Data Mining (DM) adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari Database skala besar yang makin banyak terakumulasi sejalan dengan pertumbuhan teknologi informasi. Definisi umum dari DM itu sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. )erkembangan data mining(DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh& toko s8alayan merekam setiap penjualan barang dengan memakai alat )BS(point of sales). Database data penjualan tersebut. bisa mencapai beberapa :B setiap harinya untuk sebuah jaringan toko s8alayan berskala nasional. )erkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai Erich of data but poor of information F karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan!akan Ekuburan dataF (data tombs). DM adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. )atut diingat bah8a kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. 6arena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent)& machine learning& statistik dan database. Beberapa teknik yang sering disebut!sebut dalam literatur DM antara lain " clustering& classification& association rule mining& neural net8ork& genetic algorithm dan lain!lain. Aang membedakan persepsi terhadap DM adalah perkembangan teknik!teknik DM untuk aplikasi pada database skala besar. Sebelum populernya DM& teknik!teknik tersebut hanya dapat dipakai untuk data skala kecil saja. Di sini& penulis mencoba untuk memberi gambaran sekilas atas perkembangan terakhir teknik!teknik DM sambil memberikan juga ilustrasi pemakaian di dunia bisnis. )enulis juga menyajikan pengertian konfigurasi penyimpanan data yang memudahkan pemakai untuk melakukan DM yang umum disebut dengan data warehouse. %r3ses Data Minin( Disini akan diuraikan tahap!tahap DM dan pengertian data warehouse. "ahap-"ahap Data Mining 6arena DM adalah suatu rangkaian proses& DM dapat dibagi menjadi beberapa tahap yang diilustrasikan berikut"

#. $. '. (. ,. -.

)embersihan data (untuk membuang data yang tidak konsisten dan noise) 4ntegrasi data (penggabungan data dari beberapa sumber) Transformasi data (data diubah menjadi bentuk yang sesuai untuk di!mining) *plikasi teknik DM ?=aluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai) )resentasi pengetahuan (dengan teknik =isualisasi)

Tahap!tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan kno8ledge base. 6.? DATA MI+I+,

Biasanya perusahaan!perusahaan memakai Database dalam operasi sehari!harinya seperti pencatatan transaksi jual!beli& administrasi pengiriman barang& in=entori& penggajian dsb yang la@im disebut dengan B7T) (4nline "ransactionPprocessing . Dengan makin besarnya kebutuhan akan analisa data untuk mempertahankan keunggulan dalam kompetisi& banyak perusahaan yang juga membangun Database tersendiri yang khusus digunakan untuk menunjang proses pengambilan keputusan (Decision Making atau la@im juga disebut dengan B7*) (4nline 'nalytical Processing . )erbeda dengan B7T) yang hanya memakai operasi !uery yang sederhana dan berulang!ulang& !uery untuk B7*) biasanya lebih rumit& bersifat adhoc& dan tidak melibatkan operasi data update. B7*) juga tidak memakai data operasi sehari!hari begitu saja& tetapi memakai data yang sudah terangkum dengan model data yang disebut data cube. Data cube adalah presentasi data multidimensi seperti jenis barang& 8aktu& lokasi dsb. 4lustrasi dari data cube ditunjukkan di gambar berikut "

Dimensi pada data cube dapat dibuat bertingkat& contohnya dimensi lokasi dapat dibagi menjadi kota& propinsi dan negara. Sedangkan dimensi 8aktu mencakup jam& hari& minggu& bulan& tahun dsb. Dengan ini pemakai dapat dengan mudah mendapat rangkuman informasi dari tingkatan dimensi yang lebih luas/umum seperti negara atau tahun dengan operasi yang disebut roll-up seperti ditunjukkan di diatas. Sebaliknya dengan operasi drill-down& pemakai dapat menggali informasi dari tingkatan dimensi yang lebih detil seperti data harian atau data di lokasi yang spesifik.

Data cube yang tersedia pada data warehouse memungkinkan pemakai untuk menganalisa data operasi sehari!hari dengan berbagai sudut pandang& dan sangat berguna untuk menge=aluasi suatu asumsi bisnis. *kan tetapi untuk mendapatkan informasi yang tidak diketahui secara eksplisit diperlukan satu tahap lagi yaitu aplikasi teknik DM. Disini data warehouse merupakan data mentah untuk DM. Data warehouse sendiri secara periodik diisi data dari B7T) setelah menjalani pembersihan dan integrasi data. 6arena itu ada pula anggapan bah8a DM adalah tahap lanjut dari B7*). 6.?.1 TE$"I$ TE$"I$ DATA MI"I"#

Dengan definisi DM yang luas& ada banyak jenis teknik analisa yang dapat digolongkan dalam DM. 6arena keterbatasan tempat& disini penulis akan memberikan sedikit gambaran tentang tiga teknik DM yang paling populer. -" Association Rule Mining 'ssociation rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. ontoh dari aturan assosiatif dari analisa pembelian di suatu pasar s8alayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut. pemilik pasar s8alayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. )enting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter& support yaitu persentase kombinasi item tersebut. dalam Database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif. *lgoritma yang paling populer dikenal sebagai *priori dengan paradigma generate and test& yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tersebut memenuhi syarat support minimum. 6ombinasi item yang memenuhi syarat tersebut disebut fre5uent itemset& yang nantinya dipakai untuk membuat aturan!aturan yang memenuhi syarat confidence minimum. *lgoritma baru yang lebih efisien bernama &P-"ree. (lassi&ication /lassification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data& dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan Ejika!makaF& berupa decision tree& formula matematis atau neural network.

."

Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. ontoh dari decision tree dapat dilihat di pada gambar diatas. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. ontoh pada gambar diatas adalah identifikasi pembeli komputer& dari decision tree tersebut. Diketahui bah8a salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di ba8ah '2 tahun dan juga pelajar. *lgoritma decision tree yang paling terkenal adalah (.,& tetapi akhir!akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti Cain<orest. Metode!metode classification yang lain adalah $ayesian0 neural network0 genetic algorithm0 fu++y0 case-based reasoning0 dan k-nearest neighbor. )roses classification biasanya dibagi menjadi dua fase " learning dan test. )ada fase learning& sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. 6emudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. /" (lustering

Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya& clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. 6arena itu clustering sering digolongkan sebagai metode unsuper*ised learning. )rinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. /lustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. 4lustrasi dari clustering dapat dilihat di pada gambar diba8ah ini dimana lokasi dinyatakan dengan bidang dua dimensi& dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (G).

Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data& diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi& metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi " bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. 6elemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah& tidak dapat didapatkan cluster yang optimal. )endekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh hameleon. *khir!akhir ini dikembangkan juga metode berdasar kepadatan data& yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas& data!data tersebut dimasukkan dalam cluster. 6elebihan metode ini adalah bentuk cluster yang lebih fleksibel. *lgoritma yang terkenal adalah DBS *H. %E"ERA%A" DATA MI"I"# Sebagai cabang ilmu baru di bidang komputer (lihat artikel sebelumnya berjudul IData MiningJ) cukup banyak penerapan yang dapat dilakukann oleh Data Mining. *palagi ditunjang ke!kaya!an dan ke!anekaragam!an berbagai bidang ilmu (artificial intelligence& Database& statistik& pemodelan matematika& pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Di bidang apa saja penerapan data mining dapat dilakukan+ *rtikel singkat ini berusaha memberikan ja8abannya. Ana.isa %asar dan Manajemen >ntuk analisa pasar& banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit& kartu anggota club tertentu& kupon diskon& keluhan pembeli& ditambah dengan studi tentang gaya hidup publik. Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya" Menemba) tar(et 'asar Data mining dapat melakukan pengelompokan (clustering) dari model!model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama& tingkat penghasilan yang sama& kebiasaan membeli dan karakteristik lainnya. Me.i*at '3.a be.i 'ema)ai dari 7a)tu )e 7a)tu Data mining dapat digunakan untuk melihat pola beli seseorang dari 8aktu ke 8aktu. Sebagai contoh& ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke 6oint account (rekening bersama) dan kemudian setelah itu pola beli!nya berbeda dengan ketika dia masih bujangan. (ross$Mar0et Analysis 6ita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini beberapa contoh" - ari pola penjualan oca ola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan oca ola+

ari pola penjualan 4ndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli 4ndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual 4ndoMie. - ari pola penjualan %r35i. Cust3mer Data mining dapat membantu *nda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja. Identi5i)asi $ebutu*an (ustomer *nda dapat mengidentifikasi produk!produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor!faktor apa saja yang kira!kira dapat menarik customer baru untuk bergabung/membeli. Meni.ai 23-a.itas (ustomer K4S* 4nternational Spanyol menggunakan data mining untuk melihat kesuksesan program!program customer loyalty mereka. In53rmasi Summary *nda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi!dimensi dan dilengkapi dengan informasi statistik lainnya.

Ana.isa %erusa*aan dan Manajemen Resi)3 %eren,anaan $euan(an dan E:a.uasi Aset Data Mining dapat membantu *nda untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk menge=aluasi aset. Selain itu *nda juga dapat menggunakannya untuk analisis trend. %eren,anaan Sumber Da-a (Res3ur,e %.annin() Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan dari masing!masing resource& *nda dapat memanfaatkannya untuk melakukan resource planning. %ersain(an (C3m'etiti3n) - Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competiti*e intelligence. Data Mining dapat membantu *nda untuk memonitor pesaing!pesaing *nda dan melihat market direction mereka. - *nda juga dapat melakukan pengelompokan customer *nda dan memberikan =ariasi harga/layanan/bonus untuk masing!masing grup. - Menyusun strategi penetapan harga di pasar yang sangat kompetitif. 1al ini diterapkan oleh perusahaan minyak C?)SB7 di Spanyol dalam menetapkan harga jual gas di pasaran. Te.e)3muni)asi Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk& transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tidak lain adalah untuk menambah layanan otomatis khusus untuk transaksi!transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal. $euan(an &inancial /rimes ,nforcement Network di *merika Serikat baru!baru ini menggunakan data mining untuk me!nambang trilyunan dari berbagai subyek seperti property& rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi!transaksi keuangan yang mencurigakan (seperti money laundry). Mereka menyatakan bah8a hal tersebut akan susah dilakukan jika menggunakan analisis standar. Asuransi 'ustralian .ealth (nsurance /ommision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi. 1asilnya+ Mereka berhasil menghemat satu juta dollar per tahunnya. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan& tetapi juga untuk berbagai jenis asuransi lainnya. 1.a* Ra(a

($M 'd*anced Scout menggunakan data mining untuk menganalisis statistik permainan HB* (jumlah shots blocked0 assists dan fouls) dalam rangka mencapai keunggulan bersaing (competiti*e ad*antage) untuk tim He8 Aork 6nicks dan Miami 1eat. Astr3n3mi 7et Propulsion 8aboratory (%)7) di )asadena& alifornia dan Palomar 4bser*atory berhasil menemukan $$ Luasar dengan bantuan data mining. 1al ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa. Internet >eb Sur5 Aid ($M Surf-'id menggunakan algoritma data mining untuk mendata akses halaman 3eb khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke!efektif!an pemasaran melalui 3eb. Dengan melihat beberapa aplikasi yang telah disebutkan di atas& terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bah8a Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan CB4 ( return on in*estment) yang tinggi. Hamun demikian& perlu diingat bah8a Data Mining hanya melihat keteraturan atau pola dari sejarah& tetapi tetap saja sejarah tidak sama dengan masa datang. ontoh" jika orang terlalu banyak minum oca ola bukan berarti dia pasti akan kegemukan& jika orang terlalu banyak merokok bukan berarti dia pasti akan kena kanker paru!paru atau mati muda. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola& menganalisis trend dsb. dalam rangka mempercepat pembuatan keputusan. 6apankah data mining akan banyak digunakan di 4ndonesia+ 6ita tunggu saja.

Anda mungkin juga menyukai