Secara sederhana Data Mining merujuk pada upaya pencarian informasi yang paling terkait, atau
"menemukan pengetahuan", dari sejumlah besar data. Sebagaimana pencarian pengetahuan dalarn bidang
Intelijensia Buatan (Artificial Intellligence), yang biasa disingkat dengan AI), Data Mining berusaha mendapatkan
aturan-aturan dan pola-pola statistikal secara otomatis dari data. Akan tetapi, Data Mining berbeda dari sistem
machine learningdalam AI karena Data Mining bekerja pada volume data yang besar sekali yang sebagian besar
tersimpan di dalam disk.
Pengetahuan yang ditemukan dari basis data dapat dinyatakan dengan sekumpulan aturan-aturan. Mula-mula
kita menggambarkan struktur aturan-aturan yang digunakan untuk merepresentasikan pengetahuan. Selanjutnya, kita
pertimbangkan sejumlah klas data-mining, untuk menjelaskan kebutuhan untuk Data Mining. Kita dapat
menemukan aturan-aturan dari basis data dengan menggunakan salah satu dari dua model berikut :
Pada model pertama, pemakai dilibatkan secara langsung dalam proses pencarian pengetahuan.
Pada model kedua, sistem bertanggung jawab untuk secara otomatis menemukan pengetahuan dari basis
data, dengan mendeteksi pola-pola dan korelasi-korelasi dalam data.
Sistem pencarian-pengetahuan dapat pula merupakan gabungan dari kedua model, di mana sistem
menemukan banyak aturan secara otomatis, sementara pemakai memandu proses dalam penemuan aturan.
Dalam Data Mining, yang terpenting dan, sekaligus tersulit dari penjelasan di atas adalah bagaimana aturan-aturan
(yang merepresentasikan pengetahuan) dari basis data tersebut dapat kita peroleh. Kesulitan ini seringkali
membutuhkan intervensi dari pemakai (manusia). Pembahasan lebih jauh soal ini tidak akan dibahas dalam buku ini.
Bagi yang tertarik lebih lanjut soal ini, bisa melihat literatur lain yang relevan, di samping juga mempelajari aspek-
aspek AI (Artificial Intelligence).
Ada sejumlah hal penting yang harus dipertimbangkan dalam pembangunandata warehouse :
Kapan dan Bagaimana mendapatkan data.
Secara umum ada dua pilihan dalam mendapatkan data dari sumber-sumber data ke data warehouse, yaitu sumber
data yang secara aktif mengirimkannya (dengan memanfaatkan fungsi replikasi) ataupun data warehouseyang
mengajukan permintaan (queryke setiap sumber). Kedua-duanya dapat dilakukan secara berkala (periodik), atau bisa
juga berdasarkan permintaan (on request).
Mengingat skema dari data warehouseumumnya berbeda dengan skema sumber data (sehingga diperlukan juga
upaya konversi data), maka umumnya cara yang ditempuh untuk mendapatkan data adalah melalui permintaan
(query) dari data warehouse. Frekuensi pengambilan data biasanya juga diatur secara berkala, di luar waktu sibuk,
misalnya pada malam hari, agar tidak mengganggu pemrosesan transaksi utama di masingmasing sumber data.
Garis = ¿
Segitiga = ¿
Polygon = ¿
Berbagai operasi-operasi spasial harus dapat dilaksanakan terhadap Basis Data Spacial. Sebagai contohnya, kita
dapat melakukan pengambilan sebagian (cropping) dari perancangan objek yang berada dalam sebuah area yang
disorot (boundary). Indeks satu dimensi semacam B-'-tree, seperti yang selama ini digunakan tidak memadai untuk
membantu pelaksanaan operasi-operasi spasial semacam itu. Karena itu, digunakan struktur indeks spasial yang
multidimensi (2 dimensi atau 3 dimensi).
Sementara komputasi nirkabel (dalam sebuah jaringan nirkabel) menciptakan situasi di mana mesin tidak harus
memiliki lokasi alamat jaringan yang tetap. Hal ini memang memperumit pemrosesan query, karena akan menjadi
sukar untuk menentukan lokasi optimal untuk membentuk hasil query. Dalam banyak kasus, lokasi dari pemakai
juga sering menjadi parameter dari query. Sebagai contoh, sistem informasi perjalanan yang menyediakan data
tentang hotel, panduan perjalanan dan sebagainya. Queryterhadap data semacam itu didasarkan pada lokasi user,
arah pergerakan dan bahkan kecepatannya.
4 Pengindeksan Dokumen
Struktur indeks yang efektif menjadi penting untuk mendapatkan pemrosesan query yang efisien dalam
Sistem Pencarian Informasi. Sistem ini dapat mencari dokumen yang berisi keyword tertentu dengan memanfaatkan
inverted index, yaitu indeks yang memetakan setiap keyword K, ke dalam himpunan S, yang menjadi pengenal
(identifier) dokumen-dokumen yang mengandung K,. Untuk mendukung urutan relevansi berdasarkan kedekatan
keyword, sebuah indeks dapat memberikan tidak hanya identifikasi dokumen, tetapi juga daftar lokasi ditemukannya
keyword tersebut di dalam dokumen. Karena indeks demikian harus disimpan di dalam disk, organisasi indeks juga
berusaha meminimalkan banyaknya operasi 1/0 dalam melakukan pengambilan kumpulan dokumen yang berisi
keyword tersebut.
Tidak sebagaimana di perpustakaan, dalam sebuah Sistem Pencarian Informasi, tidak ada satu kebutuhan dan
keuntungan yang signifikan untuk menempatkan dokumen-dokumen yang berkaitan dekat (secara fisik) satu sama
lain. Kecepatan pengaksesan disk cukup cepat untuk bisa berpindah dari satu lokasi fisik dokumen yang satu ke
lokasi dokumen yang lain. Akan tetapi, sistem semacam ini memerlukan pengorganisasian dokumen secara lojik
yang memungkinkannya ditelusuri/diamati secara bersamaan. Dengan begitu, sistem juga dapat menggunakan
pengklasifikasian hirarkis sebagaimana yang diterapkan pada sistem perpustakaan, agar ketika isi sebuah dokumen
ditampilkan, maka deskripsi ringkas dari buku-buku yang berhubungan juga dapat diperlihatkan.
Dalam sebuah Sistem Pencarian Informasi, tidak ada keharusan untuk mematuhi hirarki secara ketat. Sebuah
buku yang berbicara tentang "analisa numerik" boleh jadi diklasifikasikan di bawah kelompok ilmu komputer dan
sekaligus juga berada di bawah kelompok matematika. Buku-buku dari sebuah kelompok ditunjuk oleh sebuah
kelompok dengan bantuan pointer, yang merupakan pengidentifikasi buku (identifier).
Sebagai hasil dari fleksibilitas ini, sebuah buku tidak hanya dapat menjadi anggota dari dua kelompok
berbeda, tapi juga sebuah sub kelompok bisa berada di bawah dua kelompok yang berbeda. Misalnya,sub kelompok
pernrograman yang berada di bawah kelompok ilmu komputer, juga dapat dipertimbangkan berada di bawah
kelompok rekayasa. Dengan begitu, kita dapat menyatakan klasifikasi hirarki sebagai graph asiklik berarah (directed
acyclic graph/DAG), seperti yang ditunjukkan pada Gambar 14.6. Pada gambar ini, kelompok buku Pe?nrograman
dapat dicapai dan ditelusuri dari banyak arah.
Proses untuk aplikasi berbasis Web biasanya lebih banyak dilakukan diserver. Hasil proses itulah yang
kemudian dikirim ke client melalui HTTP dalambentuk halaman-halaman Web. Selain Web server dan browser,
aplikasi berbasisWeb tidak jarang melibatkan basis data. Dalam kasus ini Web server dengan suatumekanisme dapat
mengakses basis data dan kemudian mengolah data lalu dikirimke client. Dilihat dari kedekatan program aplikasi
dengan penyimpanan data,sisitem ini dapat dikategorikan sebagai sistem three-tier. Dalam pemrogramanthree-tier,
aplikasi dipecah menjadi tiga bagian, yaitu antarmuka pengguna,computational logic, dan penyimpanan data (basis
data).Untuk aplikasi three-tier berbasis Web, browser di client berfungsi sebagaiantarmuka pengguna, Web server
akan melakukan computational logic, danprogram basis data, berfungsi sebagai penyimpan data. Secara umum
skemaaplikasi three-tier berbasis Web dapat dilihat pada Gambar 14.7. Pada gambartersebut penomoran tier
dihitung dari antarmuka pengguna.
Adanya antar muka antara web dan basis data menjadi penting dikarenakan dua alasan yaitu :
1. Bersamaan dengan adanya pertumbuhan perdagangan elektronik atau E- Commerce, pengolahan
transaksi harus dapat dihubungkan dengan web. Parapemakai berinteraksi dengan basis data secara tidak
langsung melalui serangkaian interaksi dokumen HTML yang kemudian dikirim sebagai reaksi untuk server dan
selanjutnya digunakan sebagai parameter oleh program di server untuk melakukan pengolahan transaksi tertentu
pada basis data.
2. Keterbatasan yang dimiliki oleh dokumen HTML, seperti :
a) Pemakaian dokumen web yang tetap tidak memungkinkan penampilan disesuaikan dengan keinginan
pemakai, misalnya sebuah perusahaan mungkin menginginkan materi promosinya disesuaikan dengan
keinginan pembeli.
b) Pada saat data di suatu basis data mengalami perubahan, maka dokumen–dokumen web yang melibatkan
data yang sama menjadi tidak diperbaharui kembali jika tidak segera disesuaikan. Hal ini akan semakin
merepotkan jika dokumen tersebut tersebar di sejumlah lokasi.
Untuk mengatasi keterbatasan ini maka dibuatlah suatu dokumen web yang lebih dinamis dengan terlebih dahulu
membuat antar muka web dengan basis data. Sehingga pada saat dokumen diminta oleh pemakai, sebuah
program di web server akan dieksekusi untuk menjalankan operasi queri ke basis data dan membuat dokumen
sesuai dengan hasil queri tersebut. Dengan mekanisme ini maka informasi yang diinginkan oleh pemakai dapat
terefleksi dengan baik.
Rangkuman
1. Secara umum aplikasi-aplikasi basis data dapat kita bedakan kedalam dua kelompok, yaitu pemrosesan
transaksi (transaction processing) dan pendukung keputusan (decision support).
2. Secara sederhana Data Mining merujuk pada upaya pencarian informasi yang paling terkait, atau
"menemukan pengetahuan", dari sejumlah besar data.
3. Dalam Data Mining, yang terpenting dan, sekaligus tersulit dari penjelasan di atas adalah bagaimana
aturan-aturan (yang merepresentasikan pengetahuan) dari basis data tersebut dapat kita peroleh.
4. Data warehousememberikan pemakai sebuah akses ke data yang terkonsolidasi, sehingga queryuntuk
pengambilan keputusan menjadi lebih mudah untuk ditulis.
5. Basis Data Spasial ditujukan bagi penyimpanan data yang berkaitan dengan lokasi-lokasi dan ruang
geometric, dan mendukung query dan penggunaan indeks yang efisien berdasarkan data lokasi/ruang
tersebut.
6. Basis Data Geografis telah banyak dimanfaatkan, seperti pada sistem navigasi kendaraan, sistem informasi
jaringan distribusi untuk instalasi publik (telepon kabel, listrik dan air), demikian juga sistem informasi
yang banyak digunakan untuk ahli lingkungan dan perencanaan.
7. Salah satu pendekatan dalam pembentukan basis data untuk objek-objek multimedia adalah dengan
memanfaatkan basis data untuk menyimpan atribut-atribut deskriptif dan untuk menyimpan informasi track
dari file di mana objek-objek multimedia tersebut disimpan secara fisik.
8. Konsekuensi dari model komputasi bergerak adalah bahwa rute antara sepasang host dapat berubah-ubah
setiap waktu jika satu dari dua host bersifat mobile.Konsekuensi lainnya dari model komputasi bergerak
secara langsung mempengaruhi pemrosesan query ke basis data.
9. Sistem Pencarian Informasi (Information-Retrieval Sistem) merujuk pada sebuah sistem yang terhubung
dengan banyak sumber data (yang umumnya tersimpan dalam dokumen/file) dan menyediakan sarana pada
pemakai untuk melakukan pencarian informasi dengan menggunakan kata kunci pencarian (keyword).
10. Web-Based Application merupakan sebuah aplikasi yang memanfaatkan teknologi World Wide Web
sebagai Interface-nya, yang berarti data yang diinginkan dapat diakses dan diubah dengan menggunakan
sebuah Web Browser.