Anda di halaman 1dari 16

BAB VI BASIS DATA TERDISTRIBUS (DISTRIBUTED DATABASE)

6.1 BASIS DATA TERDISTRIBUSI (BDT)

adalah sekumpulan database yang saling terhubung secara logikal dan secara fisik terdistribusi pada berbagai tempat melalui jaringan komputer. Sistem Manajemen Basis Data Terdistribusi (SMBDT)/ Distributed Database Management System (DDBMS) Software yang mengelola BDT dan menyediakan mekanisme agar distribusi tersebut transparent di hadapan user. Distributed Database System menggunakan DDBMS. 6.1.1 (DDBS) /Sistem Basis Data Terdistribusi (SBDT) adalah DDB yang

CIRI-CIRI SISTEM YANG BUKAN MERUPAKAN SBDT

Ciri-ciri untuk sistem yang bukan merupakan SBDT adalah : 1. Sistem yang berupa sekumpulan file. 2. Berbagai arsitektur fisik berkait dengan sistem multiprocessor berikut: a. Shared Memory Multiprocessor (disebut juga dengan tightly couple) Multiprosesor dengan memori yang saling berbagi. Jika share memory merupakan primary memory, maka sistem multiprosesor ini disebut shared memory/tightly coupled.
CPU CPU CPU

MEMORY

I/O System

b.

Shared Disc Multiprocessor (disebut juga dengan loosely couple) Multiprosesor dengan memori yang saling berbagi. Jika share memory merupakan secondary memory, maka disebut shared disk/loosely coupled .
CPU MEMORY CPU MEMORY CPU MEMORY

SHARED SECONDARY STORAGE

c.

Shared Nothing Multiprocessor System Model shared nothing adalah tiap prosesor masing-masing mempunyai memori primer dan sekunder maupun periperalnya yang berkomunikasi dengan prosesor lain melalui high speed interconect (misalnya bus atau switch)

CPU MEMORY

CPU MEMORY

SWITCH / HUB

CPU MEMORY

CPU MEMORY

3.

Basis Data terpusat pada jaringan Bentuk basis data terpusat pada jaringan
SITE 1

SITE 5

COMMUNICATION NETWORK

SITE 2

SITE 4

SITE 3

Seperti Apakah Yang Dimaksud Dengan SBDT ?


SITE 1

SITE 5

COMMUNICATION NETWORK

SITE 2

SITE 4

SITE 3

Beberapa ciri yang mendasari SBDT adalah : 1. Data disimpan pada sejumlah tempat. Setiap tempat secara logik terdiri dari processor tunggal 2. Processor pada tempat yang berbeda tersebut dihubungkan dengan jaringan komputer. 3. SBDT bukan sekumpulan file yang berada pada berbagai tempat tetapi sebuah Database pada berbagai tempat. 4. Setiap tempat mempunyai kemampuan untuk secara mandiri memproses permintaan user yang membutuhkan akses ke data di tempat terebut, dan juga mampu untuk memproses data yang tersimpan di tempat lain. Keuntungan Penggunaan SBDT adalah : 1. Pengelolaan secara transparan data terdistribusi dan replicated. Apa yang diharapkan dari transparansi pengelolaan data ? a. Mengurangi ketergantungan data b. Transparansi jaringan c. Transparansi replikasi d. Transparansi fragmentasi

Boston Projects Boston Employees Boston Assignments

Tokyo

Paris Projects Paris Employees Paris Assignments Boston Employees

ITLM

Boston

COMMUNICATION NETWORK

Paris

New York
Boston Projects New York Employees New York Projects New York Assignments

Montreal
Montreal Projects Paris Projects New York Projects with budget >200000 Montreal Employees Montreal Assignments

2. 3.

Mengacu pada struktur organisasi. Meningkatkan kemampuan untuk berbagi dan otonomi lokal. Melakukan penyebaran data memungkinkan kelompok lokal melakukan kendali yang lebih mandiri pada datadata mereka. Pada gilirannya ini memungkinkan perbaikan pada integritas data dan perbaikan pada administrasi data. Pada saat yang sama, pengguna-pengguna dapat mengakses data yang tidak bersifat lokal saat dibutuhkan. Perangkat keras dapat dipilih untuk lokasi lokal agar sesuai dengan kebutuhan pemrosesan lokal. 4. Meningkatkan ketersediaan data. 5. Meningkatkan kehandalan. Saat sistem terpusat mengalami kegagalan, basis data menjadi tidak dapat digunakan oleh pengguna. Sistem tersebar akan terus berfungsi (dengan kekurangan tertentu) saat salah satu komponennya mengalami kegagalan. 6. Meningkatkan unjuk kerja. 7. Menudahkan pengembangan sistem. 8. Pertumbuhan secara modular. Misalkan organisasi berkembang/berekspansi ke lokasi yang baru atau menambah kelompok kerja (workgroup) maka sering kali lebih mudah dan lebih ekonomis untuk menambah komputer lokal dan data-data yang berhubungan pada jaringan tersebar alih-alih mengembangkan komputer besar terpusat. Juga dengan sistem tersebar, kemungkinan terjadinya kekacauan pada pengguna lebih kecil saat komputer pusat dimodifikasi atau dikembangkan. 9. Biaya komunikasi yang lebih rendah. Dengan sistem tersebar, data dapat dilokalisasi dekat dengan pengguna yang membutuhkan. Hal ini akan mengurangi biaya komunikasi dibandingkan dengan sistem terpusat. 10. Waktu tanggap yang lebih baik. Bergantung pada bagaimana data disebarkan, kebanyakan permintaan data dapat dipenuhi dengan data yang tersimpan pada lokasi yang bersangkutan tempat permintaan itu dilakukan. Ini mempercepat proses Query dan penundaan (delay) oleh komputer pusat dapat diminimisasi. Juga mungkin untuk memecah Query yang kompleks ke subQuery-subQuery bagiannya sehingga dapat diproses secara paralel pada lokasi-lokasi yang berbeda; hasilnya adalah Query yang lebih cepat. Kerugian Penggunaan SBDT adalah : 1. Kompleksitas manajemen 2. Kontrol integritas lebih sulit 3. Biaya pengembangan 4. Keamanan 5. Kurang standarisasi 6. Menambah kebutuhan penyimpanan 7. Lebih sulit dalam mengatur lingkungan data 8. Menambah biaya pelatihan 9. Harga software yang mahal 10. Kemungkinan kesalahan lebih besar 11. Biaya pemrosesan tinggi

6.1.2

KOMPONEN SOFTWARE DIDALAM MENGEMBANGKAN DATABASE TERDISTRIBUSI

Komponen software di dalam mengembangkan Database terdistribusi adalah : 1. The Database management component (DB) 2. The data communication component (DC) 3. The data dictionary (DD), which is extended to represent information about the distribution of data in the network 4. The distributed Database component (DDB)
T T T

Local Database 1

DB DD

DC DDB SITE 1

SITE 2 DD Local Database 2 DDB DB DC

Tipe sistem di atas adalah mensupport : 1. Remote Database access by an application program. Feature ini sangat penting dan harus disediakan oleh semua sistem yang memiliki komponen Database terdistribusi. 2. Some degree of distribution transparency. Support for Database administration and control. Feature ini termasuk tool untuk memonitor Database, menggabungkan informasi menyangkut penggunaan Database dan keberadaan file-file data pada site yang berbeda. 6.1.3 MODEL ARSITEKTUR DBMS

Model arsitektur untuk DBMS adalah sebagai berikut:

Gambar. Alternatif -alternatif implementasi DBMS A. Autonomy Autonomy mengacu pada pendistribusian kontrol, bukan pada data. Autonomy dikelompokkan atas : 1. Tight Integration Image tunggal dari keseluruhan Database tersedia untuk semua user yang ingin berbagi informasi yang terdapat pada banyak Database. User hanya melihat data secara logikal tersimpan pada satu Database pada satu tempat. 2. Semi Otonomous DBMS dapat beroperasi secara independen tetapi akan bekerja secara bersama untuk membuat lokal data dapat dipakai bersama-sama. 3. Isolasi Total Satu sistem memiliki satu DBMS dan tidak dapat berkomunikasi dengan DBMS yang lain.

* Alternatif arsitektural Autonomy : A (autonomy), 0=tight integration, 1=semiaoutonomous systems, 2=total isolation B. Distribution Merupakan kebalikan dari autonomy, distribusi merujuk ke data. Terdapat dua alternatif, yaitu : distribusi client/server dan distribusi peer-to-peer (full distribusi). 1. Distribusi client/server. Server menyediakan data management sedangkan client menyediakan aplikasi termasuk user interface. a. Multiple client-single server dari sudut pandang manajemen data tidak berbeda dengan centralized Database sepanjang data hanya terletak di satu server. b. Multiple client-multiple server. Ada dua alternatif strategi manajemen : - Fungsi data manajemen dipusatkan pada server. - Tiap client mengetahui home servernya dan kemudian berkomunikasi dengan server lain bila dibutuhkan. Pendekatan ini memudahkan server, tapi membebani mesin client dengan penambahan tanggung jawab. (lebih mirip ke peer-to-peer)
User Interface Application Program Client DBMS Communication Software SQL queries O p e r a t I n g Result relation Communication Software Semantic Data Controller Query Ortimizer Transaction Manager Recovery Manager Runtime Support Processor System ..

Opearting System

Database

2.

Distribusi peer-to-peer (full distribusi). Tidak ada perbedaan antara mesin client dan mesin server. Setiap mesin mempunyai fungsi DBMS utuh dan dapat berkomunikasi dengan mesin yang lain untuk mengeksekusi Query dan transaksi. a. Arsitektur umum DBMS telah dijabarkan sebelumnya. b. Physical data organization tiap mesin bisa jadi berbeda. Berarti dibutuhkan individual internal schema pada tiap site, disebut local internal schema (LIS). c. Enterprise view dijabarkan oleh global conceptual schema (GCS) d. Telah diterangkan bahwa data pada distributed Database biasanya difragmenasi dan direplikasi. Untuk menghandlenya pengorganisasian data secara logis di tiap site perlu dijabarkan, sehingga dibutuhkan a third layer dalam arsitektur ini yaitu local conceptual schema (LCS). e. Akhirnya aplikasi dan pengaksesan user ke Database dilayani oleh external schemas (ESs).

Users External Schema External view External view External view

Conceptual Schema

Conceptual view

Internal Schema

Internal view

* Alternatif arsitektural Distribution : D (distribution), 0=no distribution, 1=client/ server, 2=peer-to-peer C. Heterogeneity. Heterogeneity merupakan keragaman bentuk di dalam distributed systems, mulai dari hardware heterogeinity hingga networking protocols. Utamanya adalah keragaman menyangkut model data, bahasa Query dan transaction management protocols. Heterogen bisa terjadi pada hardware atau pada sebagian protokol jaringan atau perbedaan manajer data. * Alternatif arsitektural Heterogeneity : H (heterogeinity), 0 = homogeneous systems, 1 = heterogenous systems Arsitektur SBDT jika dipandang dari fungsi setiap komponen dari struktur dapat dibagi menjadi 3 yaitu : 1. Client-Server System 2. Collaborating System 2. Middleware System 1. Client-Server System Sistem berbasis client-server memiliki satu atau lebih client proses dan satu atau lebih server proses. Client proses dapat mengirimkan sebuah Query ke beberapa server proses. Client bertanggung jawab terhadap layanan antar muka dan server bertanggung jawab untuk mengatur data dan mengeksekusi transaksi. Arsitektur berbasis client-server ini sangat populer karena beberapa alasan : Sederhana dalam implementasi karena adanya pemisahan fungsi dan pemusatan server. Mesin server yang mahal menjadi tidak mubazir karena client mesin yang murah dapat mengoptimalkan kerja server User lebih familiar menjalankan antar muka grafis pada mesin client, daripada pada mesin server. Yang harus diingat saat menulis aplikasi pada sistem berbasis client-server adalah membedakan antara sisi client dan sisi server serta harus tetap mempertahankan komunikasi antara keduanya seefisien mungkin. Khususnya jika kita membuka jalur dan kemudian mengambil data dari server dapat menimbulkan beban di jaringan. Yang masih perlu dipelajari adalah menyimpan sementara (cache) pada sisi client untuk mengurangi kepadatan jalur jaringan, meskipun harus tetap memperhatikan status data. 2. Collaborating System Arsitektur client-server tidak dapat mengirimkan sebuah Query tunggal untuk dikerjakan oleh beberapa server, hal ini disebabkan client proses harus dapat memecah sebuah Query menjadi beberapa subQuery untuk dieksekusi pada beberapa lokasi dan kemudian menggabungkan potongan jawaban ke sub Query yang lain. Hal ini mengakibatkan client proses mengerjakan pekerjaan yang sangat kompleks sehingga tidak dapat dibedakan dengan server proses.

Kesulitan di atas diatasi dengan collaborating server system yang memungkinkan untuk memiliki beberapa server Database dan setiap server proses dapat menjalankan transaksi menggunakan data lokal kemudian secara bersama-sama mengeksekusi transaksi yang melibatkan banyak server. Ketika sebuah server menerima Query yang membutuhkan akses ke data pada lain server, maka server akan membangkitkan subQuery yang sesuai untuk dieksekusi oleh server yang lain dan kemudian mengambil hasil Query tersebut untuk digunakan sebagai data agar dapat menghasilkan hasil akhir yang diminta Query awal. Yang harus diperhatikan adalah proses pemecahan Query menjadi sub Query harus mempertimbangkan biaya komunikasi jaringan. 3. Middleware System Arsitektur middleware memungkinkan Query tunggal untuk dikerjakan oleh banyak server, tetapi tidak perlu semua server Database dapat melakukan strategi eksekusi Query pada banyak server. Ide ini muncul karena hanya ada satu server Database yang dapat mengatur Query dan transaksi pada banyak server, tetapi server yang lain hanya dapat menangani Query lokal dan transaksi lokal. Kita memiliki server khusus yang memiliki software untuk mengkoordinasikan eksekusi Query dan transaksi untuk beberapa server Database lainnya. Software ini disebut middleware. Pada sisi middleware akan dapat melakukan eksekusi join dan operator relasi lain yang diperoleh dari server lain, tetapi server ini tidak mengatur data sendiri. DATA WAREHOUSE

6.2

Prepository (arsip) informasi yang dikumpulkan dari banyak sumber disimpan pada skema yang disatukan di satu situs tunggal. Basis data dimana data dikumpulkan dari banyak sistem untuk mendukung pelaporan dan pengambilan keputusan manajemen. Begitu data dikumpulkan, data disimpan selama waktu yang lama. Data warehouse menyediakan satu antarmuka terkonsolidasi tunggal, mempermudah pembuatan Query yang mendukung pembuatan keputusan. Dengan mengakses informasidari Data warehouse, pembuat keputusan menjamin sistem pengolahan transaksi online nya tidak terganggu. Karakteritsik Data Warehouse 1. Data dikumpulkan dari sumber-sumber lain seperti sistem lama ataupun sistem OLTP 2. Data dibuat konsisten dengan menyimpan di data warehouse 3. Data diringkas. Data warehouse umumnya tidak menyimpan serinci sistem berorientasi transaksi 4. Data berumur lebih lama. Sistem transaksi dapat mempertahankan data hanya sampai selesainya transaksi, sedangkan data warehouse dapat mempertahankan data sampai bertahun-tahun 5. Data disimpan dalam suatu format yang nyaman untuk melakukan Query dan analisis 6. Data biasanya read-only Data warehouse memungkinkan pemakai memeriksa data historis untuk melakukan analisis terhadap data ini dalam beragam cara dan membuat keputusan didasarkan pada hasil analisis. Data warehouse menggunakan beragam teknologi seperti mesin basis data dan kakas Query, perangkat keras komputer SMP (Symmetric multiprocessing) dan RAID (Redundant Array of Inexpensive Disk). Semua teknologi ini tanpa guna bila pemakai tidak dapat memperoleh jawaban atas pertanyaannya secara cepat dan mudah. Begitu terbangun data warehouse, perusahaan mempunyai sumber data skala perusahaan yang konsisten yang memungkinkan jawaban yang cepat. Data warehouse adalah satu metode penyimpanan data historis dan terpadu untuk sistem pendukung keputusan atau sistem intelijen bisnis (busines intelegence system). Data warehouse adalah pemisahan secara fisik antara sistem fisik antara sistem data operasional dengan sistem data untuk pendukung pengambilan keputusan. Data warehouse beroperasi pada satu Database, atau campuran banyak basis data perusahaan. Data warehouse membantu transformasi data menjadi pengetahuan sehingga membantu perusahaan berkompetisi. Pada data warehouse, data diekstraksi dari banyak sistem sumber, dipadukan dan ditransformasi sebelum dimuatkan ke data warehouse. Tujuan dari Data Warehouse 1. Menyediakan sumber tunggal informasi koorporasi yang handal dan tunggal

2. 3.

memberi pemakaian akhir sarana pengaksesan data tanpa bergantung pada laporan-laporan yang dihasilkan bagian sistem informasi memungkinkan analis bisnis menganalisa data korporasi, bahkan memodelkan what-if prediktif dari data.

Isu-isu di Data Warehouse 1. Kapan dan bagaimana mengumpulkan data 2. Skema apa yang digunakan 3. Pembersihan/pemusnahan data (data cleansing) 4. Bagaimana cara melakukan propagasi pembaharuan-pembaharuan 5. Data apa yang diringkas 6.2.1 Siklus Hidup Dan Manfaat Data Warehouse

Gambar siklus Hidup Data Warehouse


Source OLTP Systems Data marts

Data Warehouse

Cubes Clients

Transformatin tools Metadata

Data di satu atau banyak OLTP merupakan sumber data untuk data warehouse. Data di sistem sumber melewati proses ETL-C (extracting, transforming, loading atau disertai cleansing) menggunakan kakas transformasi. Data warehouse yang terbentuk dapat dianalisis per bagian yang disebut data mart melalui Query secara langsung terhadap data mart atau dipandang sebagai struktur multidimensi (hypercubes). Data Mart adalah : 1. Data Mart (departmental data warehouse) adalah sistem yang mengumpulkan data yang dibutuhkan sebuah departemen atau aplikasi yang terkait. 2. Data Mart dapat diimplementasikan di data warehouse dengan cara membuat view khusus, spesifik aplikasi tertentu. 3. Data Mart dapat juga diimplementasikan sebagai materialized view suatu departemen yang fokus pada subjek tertentu. Materialized view adalah view yang tupel hasil disimpan. 4. Data Mart dapat memiliki representasi berbeda dan menggunakan OLAP engineI sendiri. 6.2.2 Manfaat Data Warehouse

Secara garis besar data warehouse dapat meningkatkan produktivitas pembuat keputusan melalui konsolidasi, konversi, transformasi, dan pemaduan data operasional sehingga menyediakan pandangan konsisten terhadap perusahaan. Manfaat-manfaat yang diperoleh antara lain : 1. Kemampuan mengkases data yang berskala perusahaan 2. Kemampuan memiliki data yang konsisten 3. Kemampuan melakukan analisis secara cepat 4. Dapat digunakan untuk mencari redundansi usaha di perusahaan 5. penemuan gap anatara pengetahuan bisnis atau proses bisnis 6. Merendahkan ongkos administrasi 7. Memberdayakan anggota perusahaan dengan informasi yang diperlukan untuk melakukan tugasnya secara efektif.

1.

2.

3. 4.

Teknik-teknik analisis dan pengambilan keputusan yang didukung antara lain : Data Mining Proses ekstraksi informasi yang belum diketahui sebelumnya namun signifikan dari basis data besar dan menggunakannya untuk membantu pembuatan keputusan bisnis penting. Kakas intelijensia bisnis Membantu pemakai menentukan jenis informasi yang diperlukan untuk dianalisis dan cara pengaksesan serta analisis informasi itu. Analisis data multidimensi Melakukan fungsi statistik dan matematika, peramalan dan pemodelan multidimensi. Kakas Query terhadap data warehouse Melacak operasi-operasi bisnis sehari-hari dan mendukung kepurtusan bisnis taktis. Arsitektur Data Warehouse Gambar arsitektur data warehouse adalah :
Data Source Data Source Data Source Perform batching copy from OLTP DB to temporary DB BATCHING ENGINE

6.2.3

TMP DB

Done with MSSQL Enterprise Manager Tools Preparing Staging Area Metadata Schedular Agent Extracting, Transforming, Loading (ETL) 1. Extracts from TMPDB 2. Mapping Data 3. Summarize Data 4. Break Down Data 5. Apply Surrogate Keys 6. Cleanse Data 7. Load Data from DPA to Warehouse Database Perform periodic caller to ETL

DPA DB

Schedular Agent OLAP ENGINE

DWH DB

Perform Periodic Cube Definition from DWH DB

OLAP REPORT APPLICATION

6.2.4

Karakteristik dan Ciri Data Warehouse

Karakteristik data warehouse adalah : 1. Berorientasi sunjek, berarti data warehouse berfokus pada entitas-entitas bisnis level tinggi. Hal ini berbeda dengan sistem operasional yang lebih berurusan langsung dengan proses operasi sehari-hari. 2. Terpadu, berarti data tersimpan dalam terformat yang konsisten (dalam konvensi penanaman, konstrain domain, atribut fisik, dan pengukuran). 3. Data diringkas. Data warehouse biasanya tidak dijaga agar serinci di sistem transaksi. 4. Data disimpan dalam format yang nyaman untuk Query dan analisis. 5. Data biasanya bersifat read-only. 6.2.5 Pemodelan Pada Data Warehouse

Data Warehouse model berbasis pada dimensi, hirarki, fakta dan sparsity. Karakteristik model data warehouse adalah sebagai berikut : 1. Data ringkasan untuk dukungan keputusan dan analisis 2. Banyak level peringkasan 3. Data yang jarang diperbaharui 4. Data terpadu dari banyak sumber

DPA DB

5. 6. 7. 8. 9. 10.

Rancangan diarahkan oleh kebutuhan informasi yang berevolusi Berorientasi area bisnis, fungsi atau subjek Menyediakan informasi terpadu melewati bagian perusahaan Granularitas dta untuk analisis melampaui periode waktu yang diperluas Secara interaktif dibangun oleh area subjek Menyediakan data bersih, handal untuk data mart atau dukungan keputusan area bisnis. Skema Bintang

6.2.6

Basis data multidimensi yang merupakan basis sistem OLAP multidimensi memberikan solusi berorientasi basis untuk menjawab pertanyaan kompleks. Pendekatan ini mempunyai tingkat keberhasilan tinggal ketika jawaban paling sering disusun dari matriks atau data kuantitatif.
Product dimension Product key Product name Product size Product form Product package Product dept Product cat Product subcat ... Sales fact Product key Organization key Store key Time key Units sold qty local currency sale amt US$ sale amount US$ cost amount product gross margin intercompany profit royalty amount . Time dimension Time key Time date week month quarter year . Store dimension Store key Store name Store address Store manager Floor plan type Store size ...

Organization dimension Organization key Division name Area name Region name Market name ....

Karakteristik utama skema bintang : 1. Pusat skema bintang adalah tabel fakta (fact table) 2. Tabel fakta berisi indikator-indikator kinerja pokok (KPI key performance indicators) 3. Indikator-indikator kinerja pokok adalah atribut-atribut dari tabel fakta 4. Objek-objek informasi dan waktu adalah kunci utama di tabel fakta 5. tabel-tabel yang di sekeliling tabel fakta adalah tabel dimensi 6. Tabel dimensi berisi data mengenai objek-objek informasi atau waktu 7. Tabel fakta dan dimensi di-join dengan kunci banyak bagian di tabel fakta 8. Skema bintang diimplementasikan menggunakan teknologi basis data relasional. 6.2.7 Hirarki Dimensi

Hirarki dimensi merupakan hubungan parent-childs. Anggota hirarki disusun umum menuju keanggota lebih spesifik.
Grocery Drinks Soda Cola Orange Grape Beer Bottled Water Deli Meat Paper

Salah satu pokok keberhasilan implementasi data warehouse adalah perancangan. Perancangan sistem meliputi : 1. Perancangan kapasitas pendefinisian arsitektur

2. 3. 4. 5. 6. 7.

Integrasi servers, media penyimpanan, clients Perancangan skema data warehouse, views Perancangan organisasi fisik data warehouse, penempatan data, partisi, metode akses Menghubungkan sumber : gateways, ODBC drivers Perancangan metadata dan pengisian aplikasi pengguna Membuat data warehouse dan aplikasi

Pembangunan data warehouse dapat dilakukan dengan dua cara, yaitu: 1. Top Down a. Membuat perancangan data warehouse keseluruhan b. Menentukan sumber data dan mekanisme pemanduan data ke data warehouse 2. Bottom Up a. Membuat data marst untuk setiap sub sistem yang ada b. Menggabungkan data marts untuk menghasilkan data warehouse utuh 6.3 DATA MINING

Data Mining (DM) adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari Database skala besar yang makin banyak terakumulasi sejalan dengan pertumbuhan teknologi informasi. Definisi umum dari DM itu sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Perkembangan data mining(DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tersebut. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs). DM adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain : clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada database skala besar. Sebelum populernya DM, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja. Di sini, penulis mencoba untuk memberi gambaran sekilas atas perkembangan terakhir teknik-teknik DM sambil memberikan juga ilustrasi pemakaian di dunia bisnis. Penulis juga menyajikan pengertian konfigurasi penyimpanan data yang memudahkan pemakai untuk melakukan DM yang umum disebut dengan data warehouse. Proses Data Mining Disini akan diuraikan tahap-tahap DM dan pengertian data warehouse. Tahap-Tahap Data Mining Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap yang diilustrasikan berikut:

1. 2. 3. 4. 5. 6.

Pembersihan data (untuk membuang data yang tidak konsisten dan noise) Integrasi data (penggabungan data dari beberapa sumber) Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining) Aplikasi teknik DM Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai) Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. 6.4 DATA MINING

Biasanya perusahaan-perusahaan memakai Database dalam operasi sehari-harinya seperti pencatatan transaksi jual-beli, administrasi pengiriman barang, inventori, penggajian dsb yang lazim disebut dengan OLTP (Online TransactionPprocessing). Dengan makin besarnya kebutuhan akan analisa data untuk mempertahankan keunggulan dalam kompetisi, banyak perusahaan yang juga membangun Database tersendiri yang khusus digunakan untuk menunjang proses pengambilan keputusan (Decision Making) atau lazim juga disebut dengan OLAP (Online Analytical Processing). Perbeda dengan OLTP yang hanya memakai operasi Query yang sederhana dan berulang-ulang, Query untuk OLAP biasanya lebih rumit, bersifat adhoc, dan tidak melibatkan operasi data update. OLAP juga tidak memakai data operasi sehari-hari begitu saja, tetapi memakai data yang sudah terangkum dengan model data yang disebut data cube. Data cube adalah presentasi data multidimensi seperti jenis barang, waktu, lokasi dsb. Ilustrasi dari data cube ditunjukkan di gambar berikut :

Dimensi pada data cube dapat dibuat bertingkat, contohnya dimensi lokasi dapat dibagi menjadi kota, propinsi dan negara. Sedangkan dimensi waktu mencakup jam, hari, minggu, bulan, tahun dsb. Dengan ini pemakai dapat dengan mudah mendapat rangkuman informasi dari tingkatan dimensi yang lebih luas/umum seperti negara atau tahun dengan operasi yang disebut roll-up seperti ditunjukkan di diatas. Sebaliknya dengan operasi drill-down, pemakai dapat menggali informasi dari tingkatan dimensi yang lebih detil seperti data harian atau data di lokasi yang spesifik.

Data cube yang tersedia pada data warehouse memungkinkan pemakai untuk menganalisa data operasi sehari-hari dengan berbagai sudut pandang, dan sangat berguna untuk mengevaluasi suatu asumsi bisnis. Akan tetapi untuk mendapatkan informasi yang tidak diketahui secara eksplisit diperlukan satu tahap lagi yaitu aplikasi teknik DM. Disini data warehouse merupakan data mentah untuk DM. Data warehouse sendiri secara periodik diisi data dari OLTP setelah menjalani pembersihan dan integrasi data. Karena itu ada pula anggapan bahwa DM adalah tahap lanjut dari OLAP. 6.4.1 TEKNIK-TEKNIK DATA MINING

Dengan definisi DM yang luas, ada banyak jenis teknik analisa yang dapat digolongkan dalam DM. Karena keterbatasan tempat, disini penulis akan memberikan sedikit gambaran tentang tiga teknik DM yang paling populer. 1. Association Rule Mining Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut. pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tersebut. dalam Database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tersebut memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tersebut disebut frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree. Classification Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika -maka, berupa decision tree, formula matematis atau neural network.

2.

Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Contoh dari decision tree dapat dilihat di pada gambar diatas. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Contoh pada gambar diatas adalah identifikasi pembeli komputer, dari decision tree tersebut. Diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor. Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. 3. Clustering

Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari clustering dapat dilihat di pada gambar dibawah ini dimana lokasi dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (+).

Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tersebut dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN. PENERAPAN DATA MINING Sebagai cabang ilmu baru di bidang komputer (lihat artikel sebelumnya berjudul Data Mining) cukup banyak penerapan yang dapat dilakukann oleh Data Mining. Apalagi ditunjang ke-kaya-an dan ke-anekaragam-an berbagai bidang ilmu (artificial intelligence, Database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Di bidang apa saja penerapan data mining dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya. Analisa Pasar dan Manajemen Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik. Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya: Menembak target pasar Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya. Melihat pola beli pemakai dari waktu ke waktu Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan. Cross-Market Analysis Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini beberapa contoh: - Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?

- Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie. - Cari pola penjualan Profil Customer Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja. Identifikasi Kebutuhan Customer Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli. Menilai Loyalitas Customer VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Informasi Summary Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.

Analisa Perusahaan dan Manajemen Resiko Perencanaan Keuangan dan Evaluasi Aset Data Mining dapat membantu Anda untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu Anda juga dapat menggunakannya untuk analisis trend. Perencanaan Sumber Daya (Resource Planning) Dengan melihat informasi ringkas ( summary) serta pola pembelanjaan dan pemasukan dari masing-masing resource, Anda dapat memanfaatkannya untuk melakukan resource planning. Persaingan (Competition) - Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu Anda untuk memonitor pesaing-pesaing Anda dan melihat market direction mereka. - Anda juga dapat melakukan pengelompokan customer Anda dan memberikan variasi harga/layanan/bonus untuk masing-masing grup. - Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran.

Telekomunikasi Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tidak lain adalah untuk menambah layanan otomatis khusus untuk transaksi-transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal. Keuangan Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry). Mereka menyatakan bahwa hal tersebut akan susah dilakukan jika menggunakan analisis standar. Asuransi Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi. Hasilnya? Mereka berhasil menghemat satu juta dollar per tahunnya. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lainnya. Olah Raga IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.

Astronomi Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa. Internet Web Surf-Aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke-efektif-an pemasaran melalui Web. Dengan melihat beberapa aplikasi yang telah disebutkan di atas, terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bahwa Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan ROI ( return on investment) yang tinggi. Namun demikian, perlu diingat bahwa Data Mining hanya melihat keteraturan atau pola dari sejarah, tetapi tetap saja sejarah tidak sama dengan masa datang. Contoh: jika orang terlalu banyak minum Coca Cola bukan berarti dia pasti akan kegemukan, jika orang terlalu banyak merokok bukan berarti dia pasti akan kena kanker paru-paru atau mati muda. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola, menganalisis trend dsb. dalam rangka mempercepat pembuatan keputusan. Kapankah data mining akan banyak digunakan di Indonesia? Kita tunggu saja.

Anda mungkin juga menyukai