Penggalian Data

Penggalian Data (Data Mining)
Secara sederhana Data Mining merujuk pada upaya pencarian informasi yang paling terkait, atau
"menemukan pengetahuan", dari sejumlah besar data. Sebagaimana pencarian pengetahuan dalarn bidang
Intelijensia Buatan (Artificial Intellligence), yang biasa disingkat dengan AI), Data Mining berusaha mendapatkan
aturan-aturan dan pola-pola statistikal secara otomatis dari data. Akan tetapi, Data Mining berbeda dari sistem
machine learningdalam AI karena Data Mining bekerja pada volume data yang besar sekali yang sebagian besar
tersimpan di dalam disk.
Pengetahuan yang ditemukan dari basis data dapat dinyatakan dengan sekumpulan aturan-aturan. Mula-mula
kita menggambarkan struktur aturan-aturan yang digunakan untuk merepresentasikan pengetahuan. Selanjutnya, kita
pertimbangkan sejumlah klas data-mining, untuk menjelaskan kebutuhan untuk Data Mining. Kita dapat
menemukan aturan-aturan dari basis data dengan menggunakan salah satu dari dua model berikut :
 Pada model pertama, pemakai dilibatkan secara langsung dalam proses pencarian pengetahuan.
 Pada model kedua, sistem bertanggung jawab untuk secara otomatis menemukan pengetahuan dari basis
data, dengan mendeteksi pola-pola dan korelasi-korelasi dalam data.
Sistem pencarian-pengetahuan dapat pula merupakan gabungan dari kedua model, di mana sistem
menemukan banyak aturan secara otomatis, sementara pemakai memandu proses dalam penemuan aturan.
Dalam Data Mining, yang terpenting dan, sekaligus tersulit dari penjelasan di atas adalah bagaimana aturan-aturan
(yang merepresentasikan pengetahuan) dari basis data tersebut dapat kita peroleh. Kesulitan ini seringkali
membutuhkan intervensi dari pemakai (manusia). Pembahasan lebih jauh soal ini tidak akan dibahas dalam buku ini.
Bagi yang tertarik lebih lanjut soal ini, bisa melihat literatur lain yang relevan, di samping juga mempelajari aspek-
aspek AI (Artificial Intelligence).
Penggudangan Data (Data Warehousing)

Perusahaan-perusahaan besar memiliki banyak lokasi, yang masing-masing dapat menghasilkan volume
data yang besar. Sebagai contoh, jaringan perdagangan ritel yang besar memiliki toko-toko pada ratusan bahkan
ribuan lokasi, begitu pula dengan perusahaan asuransi yang mungkin memiliki data dari ribuan cabang-cabangnya.
Lebih jauh lagi, organisasi-organisasi besar memiliki struktur organisasi internal yang rumit, sebagai konsekuensi
dari data yang berbeda di berbagai lokasi atau pemakaian beragam sistem operasi, dan dengan skema basis data
yang juga berbeda. Sebagai contoh, data problem pabtik dan data keluhan pelanggan dapat dikelola dan disimpan
secara berbeda oleh masing-masing cabang. Perbedaan tersebut bisa meliptiti platform (hardware dan software)
yang digunakan, DBMS yang diterapkan hingga skema basis data yang dibentuk. Pengambil keputusan perusahaan
membutuhkan akses ke informasi dari semua sumber-sumber itu. Mengatur queryke setiap sumber data secara
individual akan menjadi sangat tidak efisien. sumber-sumber data boleh jadi hanya menyimpan data yang terakhir
saja, padahal pengambil keputusan juga mungkin memerlukan akses ke data yang lalu (data histori). Sebagai contoh,
perubahan pola pembelian dapat diketahui dengan membandingkan data pembelian tahun ini dengan data pembelian
pada tahun lalu. Upaya Penggudangan Data (atau yangpopuler disebut sebagai Data Warehousing) diharapkan dapat
memberikan solusi pada masalah semacam ini.
Pada dasarnya Data warehousemerupakan gudang (atau arsip) dari informasi yang diperoleh dari banyak
sumber, disimpan dalam skema basis data yang tunggal, di satu lokasi saja. Begitu diperoleh, data akan disimpan
dalam waktu yang lama sehingga memungkinkan pengaksesan ke data historis. Karena itu, Data
warehousememberikan pemakai sebuah akses ke data yang terkonsolidasi, sehingga queryuntuk pengambilan
keputusan menjadi lebih mudah untuk ditulis. Di sisi lain, dengan mengakses informasi dari sebuah data
warehouseyang nantinya digunakan untuk dukungan pengambilan keputusan, pemakai dapat menjamin bahwa
sistem pengolahan transaksi on-line tidak dipengaruhi oleh kerja aplikasi pendukung pengambilan keputusan
(DSS).Gambar berikut ini menunjukkan arsitektur dari sebuah data warehouse, yang mengilustrasikan pengambilan
data dan penyimpanan (konsolidasi) data hingga penggunaannya untuk pencarian (query) dan dukungan pada
analisis data.
sumber data
Gambar 9-1Arsitektur Data warehouse
Ada sejumlah hal penting yang harus dipertimbangkan dalam pembangunandata warehouse :
 Kapan dan Bagaimana mendapatkan data.
Secara umum ada dua pilihan dalam mendapatkan data dari sumber-sumber data ke data warehouse, yaitu sumber
data yang secara aktif mengirimkannya (dengan memanfaatkan fungsi replikasi) ataupun data warehouseyang
mengajukan permintaan (queryke setiap sumber). Kedua-duanya dapat dilakukan secara berkala (periodik), atau bisa
juga berdasarkan permintaan (on request).
Mengingat skema dari data warehouseumumnya berbeda dengan skema sumber data (sehingga diperlukan juga
upaya konversi data), maka umumnya cara yang ditempuh untuk mendapatkan data adalah melalui permintaan
(query) dari data warehouse. Frekuensi pengambilan data biasanya juga diatur secara berkala, di luar waktu sibuk,
misalnya pada malam hari, agar tidak mengganggu pemrosesan transaksi utama di masingmasing sumber data.
 Skema Konsolidasi yang digunakan.

Sumber-sumber data yang telah dibentuk secara terpisah biasanya memiliki skema basis data yang berbeda. Bahkan,
mereka bisa menggunakan organisasi basis data yang juga berbeda. Salah satu tugas dari sebuah warehouse adalah
untuk membentuk skema data konsolidasi (gabungan), dan kemudian mengkonversi data yang didapat dari sumber
ke skema konsolidasi tersebut sebelum data tersebut disimpan. Konsekuensinya, data yang disimpan dalam.
warehouse bukanlah salinan yang persis dari data yang ada,di sumbernya.
 Bagaimana menjalarkan perubahan
Pengubahan data pada sebuah tabel di sumber data harus pula dijalarkan ke data warehouse. Jika tabel-tabel di data
warehousesama persis dengan yang ada di sumber data, maka penjalaran perubahan bisa dilakukan secara langsung
(bisa memanfaatkan prosedur basis data). Jika tidak sama (dan unaunanya memang demikian), maka propagasi
(penjalaran) perubahan bisa ditunda hingga periode berikutnya dari pengumpulan data.
 Data apa yang direkapitulasi.
Data mentah yang dihasilkan oleh sistem pengolahan transaksi bisa menjadi teramat besar untuk penyimpanan on-
line di data warehouse. Karena itu, kita dapat memenuhi banyak querydengan hanya memelihara data rekapitulasi
(summary) dengan memanfaatkan fungsi-fungsi agregasi terhadap tabel-tabel yang ada, ketimbang memelihara
keseluruhan data dalam tabel. Namun demikian, kita harus memastikan bagaimana bentuk data yang akan disimpan
di warehouse, dengan menyesuaikannya dengan peruntukannya nanti.
Basis Data Spasial (SpatialDatabases)

Spasial (dalam bahasa Inggris, Spatial) menunjukkan kata sifat yang berhubungan dengan ruangan, yang merupakan
pengembangan dari kata benda "space" yang berarti "ruang". Singkatnya, untuk merujuk pada hal-hal yang
berhubungan dengan ruang ataupun tempat, kata "spasial" dapat kita gunakan. Istilah spasial ini juga mencakup
istilah Geografis, yang sudah cukup sering kita dengar/gunakan, yang merujuk pada hal-hal yang berhubungan
dengan ilmu bumi.
Saat ini cukup banyak aplikasi yang dimanfaatkan secara khusus untuk menangani hal-hal yang berhubungan
dengan ruangan/tempat dan keilmubumian. Aplikasi ini menyediakan operasi-operasi spesifik sesuai dengan lingkup
pemakaiannya, dan karena itu juga membutuhkan penanganan dan pengelolaan basis data yang juga spesifik
(khusus). Basis Data Spasial ditujukan bagi penyimpanan data yang berkaitan dengan lokasi-lokasi dan ruang
geometric, dan mendukung query dan penggunaan indeks yang efisien berdasarkan data lokasi/ruang tersebut.
Sebagai contoh, kita ingin menyimpan sekumpulan poligon (bidang 2 dimensi dengan banyak sudut) dalam sebuah
basis data, dan kemudian memberikan query untuk mencari semua poligon yang bersinggungan / berpotongan
dengan poligon yang kita ketahui/berikan. Kita tidak dapat menggunakan struktur indeks yang baku, seperti B-tree
atau hash, untuk menjawab query tersebut secara efisien. Basis Data Spasial akan menggunakan struktur indeks
yang khusus, seperti R-tree untuk memenuhi querysemacam itu.
Ada dua jenis Basis Data Spasial yang penting diketahui :
 Basis Data Perancangan (Design Database) atau Basis Data CAD (Computer-Aided Design) yang
digunakan untuk menyimpan data hasil perancangan untuk objek-objek yang dibuat manusia seperti
bangunan, mobil, pesawat, dan lain-lain. Contoh lain dalam pemanfaatan Basis Data CAD adalah untuk
menyimpan hasil rancangan IC (intergrated-circuit) untuk chips dan rancangan perangkat elektronika.
 Basis Data Geografis, yang digunakan untuk menyimpan data geografis seperti peta dan hasil pencitraan
satelit. Basis Data Geografis sering pula disebut GIS (Geographic Information Sistem).
Garis = ¿
Segitiga = ¿
Polygon = ¿
Gambar 9-2Bentuk-bentuk Geografis. dan Representasinya
1.1.1 Representasi Informasi Geometris

Gambar 14.2 menggambarkan bagaimana berbagai bentuk geometrik dapat direpresentasikan dalam sebuah basis
data. Di sini kita menekankan bahwa informasi geometrik dapat dinyatakan dalam berbagai cara berbeda, walaupun
hanya sebagian saja yang akan kita bahas.
Sebuah garis lurus dapat dinyatakan dalam koordinat dari kedua ujungnya. Sedang untuk sebuah garis lengkung, kita
dapat membaginya dalam sejumlah garis lurus (segmen-segmen garis lurus) Yang sambung-menyambung, sehingga
informasi yang disimpan untuk garis lengkung itu nantinya berupa koordinat dari ujung-ujung segmen garis lurus
tersebut. Alternatif lain untuk merepresentasikan segmen-segmen garis (misalnya dalam sebuah peta) bisa juga
berupa sudut kemiringan dan jarak dengan titik pusatnya (biasa juga disebut sebagai koordinat ' polar). Selanjutnya
untuk sebuah poligon (dengan banyak rusuk/sudut), dapat kita representasikan dengan menginventarisir garis-garis
rusuknya secara berurut, seperti pada Gambar 14.2. Daftar dari rusuk poligon tersebut sesungguhnya menunjukkan
batas area poligon (dalam hal.ini, merupakan poligon tertutup, di mana koordinat titik awal rusuk-rusuknya sama
dengan koordinat titik akhirnya).
Yang kita ilustrasikan di atas adalah untuk objek-objek 2 dimensi. Sementara representasi dari titik-titik dan segmen
garis dalam ruang 3 dimensi mirip dengan representasi untuk ruang 2 dimensi, dengan tambahan koordinat
kedalaman/ketinggian, yang biasa disimbolkan dengan koordinat z.
1.1.2 Basis Data Perancangan
CAD (Computer-Aided Design) sudah lama digunakan hingga saat ini. Secara konvensional, CAD menyimpan data
di memori (RAM) selama penyuntingan (editting) berlangsung, dan merekam datanya kembali ke file pada akhir
pekerjaan penyuntingan tersebut. Problem Yang umum terjadi meliputi biaya (kompleksitas pernrograman -dan
waktu) dalam mentransformasikan data dari satu bentuk ke bentuk lainnya (akibat proses penyalinan, pemotongan,
pemindahan, pembesaran, pengecilan, dan sebagainya), dan kebutuhan pembacaan kembali keseluruhan file. Untuk
perancangan yang berskala besar, seperti perancangan IC yang rumit, atau bahkan perancangan sebuah pesawat,
adalah tidak mungkin untuk menyimpan seluruh data di dalam memori utama. Karena itu, ada kebutuhan untuk
pembentukan basis data dari sistem CAD. Komponen-komponen perancangan direpresentasikan sebagai objek dan
hubungan-hubungan di antara objek-objek tersebut, yang kesemuanya menunjukkan bagaimana perancangan
terbentuk.
Objek-objek yang disimpan dalam Basis Data Perancangan umumnya adalah objek-objek geometris (yang relatif
teratur). Objek geometris 2 dimensi yang sederhana meliputi titik, garis, segitiga, persegi panjang ang dan secara
umum. poligon. Objek-objek 2 dimensi yang lebih kompleks dapat dibentuk dari objek-objek sederhana tersebut
dengan juga melibatkan operasi-operasi gabungan (unio), potongan (intersection) dan/atau pengurangan
(difference). Sejalan dengan itu, objek-objek 3 dimensi yang kompleks juga dapat dibentuk dari objekobjek 3
dimensi yang lebih sederhana seperti bola, silinder, kubus, balok atau polihedron yang kemudian dikenai operasi-
operasi yang sama, sebagaimana yang diilustrasikan di gambar 10.4 berikut ini.
a. 2 silinder dengan Difference b. 2 balok dengan Unio

Gambar 9-3Objek-objek 3 Dimensi yang Lebih Kompleks
Berbagai operasi-operasi spasial harus dapat dilaksanakan terhadap Basis Data Spacial. Sebagai contohnya, kita
dapat melakukan pengambilan sebagian (cropping) dari perancangan objek yang berada dalam sebuah area yang
disorot (boundary). Indeks satu dimensi semacam B-'-tree, seperti yang selama ini digunakan tidak memadai untuk
membantu pelaksanaan operasi-operasi spasial semacam itu. Karena itu, digunakan struktur indeks spasial yang
multidimensi (2 dimensi atau 3 dimensi).
1.1.3 Data Geografis

Data geografis juga memiliki aspek spasial di alam, tetapi berbeda dengan data perancangan yang telah kita
bahas dalam beberapa aspek. Peta dan hasil pencitraan satelit merupakan contoh-contoh umum dari data geografis.
Peta dapat memberikan tidak hanya data lokasi - seperti batas wilayah, sungai, danau dan jalan - tetapi lebih jauh
lagi memiliki informasi rinci yang berhubungan dengan tempat, seperti kemiringan, jenis tanah, penggunaan tanah,
tingkat curah hujan dan lain-lain.Data geografis dapat dikelompokkan dalam 2 jenis:
 Data Raster. Pada kelompok ini, setiap objek tidak dilihat bentuk geometrisnya secara utuh, tetapi dipandang
sebagai kumpulan titik (pixel). Karena itu data raster terdiri atas peta-peta bit atau pixel dalam 2 dimensi atau
lebih. Contoh yang umum dari citra raster 2 dimensi adalah citra satelit untuk awan, di mana setiap pixel (yang
berasosiasi dengan koordinat dan warna tertentu) menyimpan keberadaan titik awan secara geografis. Data
raster dapat pula berwujud 3 dimensi - sebagai contoh, representasi temperatur pada berbagai ketinggian dalam
area berbeda, yang lagi-lagi diukur dengan bantuan sebuah satelit. Waktu dapat pula menjadi komponen
dimensi - contohnya, pengukuran temperatur di atas permukaan pada waktu-waktu pengukuran yang berbeda.
Basis Data Perancangan umumnya tidak menyimpan data raster, karena besarnya kebutuhan penyimpanan data.
 Data Vektor. Data vektor dibentuk dari objek-objek geometric dasar, seperti titik, garis, segitiga dan berbagai
poligon lainnya untuk objek-objek 2 dimensi dan silinder, elips, kubus dan polihedron lainnya untuk objek-
objek 3 dimensi.
Data peta sering direpresentasikan dalam format vektor. Sungai dan jalan dapat diwakili sebagai gabungan
dari banyak segmen garis. Provinsi dan negara dapat dinyatakan sebagai poligon. Informasi topologic, seperti tinggi,
dapat direpresentasikan sebagai sebuah permukaan yang dibagi dalam sejumlah poligon yang menutupi area dengan
tinggi yang sama, dengan nilai ketinggian yang melekat pada tiap poligon.
Gambar 9-4Objek sebagai Data Raster dan Data Vektor
1.1.4 Representasi Data Geografis

Fitur-fitur geografis, seperti negara bagian atau danau yang besar, dapat direpresentasikan sebagai poligon yang
kompleks (dengan banyak sisi/rusuk). Fitur-fitur lainnya, seperti sungai, dapat direpresentasikan baik sebagai garis
lengkung (kurva) yang kompleks atau sebagai poligon yang kompleks, tergantung apakah kedalamannya relevan
untuk juga disimpan atau tidak. Sementara informasi geografis yang berkaitan dengan area, seperti curah hujan yang
berbentuk data raster (menunjukkan titik-titik hujan di berbagai kawasan), dapat direpresentasikan dalam bentuk
array. Demi efisiensi ruang penyimpanan, array tersebut dapat disimpan dalam bentuk kompresi.Sebagaimana
digambarkan di awal, kita dapat merepresentasikan informasi sebuah kawasan geografi
dalam bentuk vektor, khususnya dengan menggunakan poligon, di mana setiap poligon mewakili kawasan yang nilai
array-nya sama (ketinggian, curah hujan, temperatur, dan lain-lain). Representasi vektor lebih kompak daripada
representasi raster untuk sejumlah aplikasi. la juga lebih akurat untuk sejumlah operasi. Penggambaran jalan
misalnya, yang dibagi-bagi ke dalam pixel-pixel seringkali kurang akurat karena akan ada titik-titik jalan (antar
pixel) yang kosong. Namun demikian, representasi vektor tidak cocok untuk aplikasi-aplikasi di mana data secara
implisit memang sudah berbentuk raster, seperti hasil pencitraan satelit (foto satelit).
1.1.5 Aplikasi Data Geografis

Basis Data Geografis telah banyak dimanfaatkan, seperti pada sistem navigasi kendaraan, sistem informasi
jaringan distribusi untuk instalasi publik (telepon kabel, listrik dan air), demikian juga sistem informasi yang banyak
digunakan untuk ahli lingkungan dan perencanaan.
Sistem navigasi kendaraan memiliki informasi tentang jalan dan berbagai layanan untuk pengemudi.
Informasi tentang jalan bisa meliputi bentuk jalan, batas kecepatan di jalan, kondisi jalan, koneksi antar jalan, juga
apakah jalan search atau dua arch. Pada level yang sederhana, sistem seperti ini dapat digunakan untuk
menghasilkan peta on-line untuk manusia. Dan dengan informasi-informasi tambahan yang relevan, pemakai dapat
menggunakannya untuk perencanaan rute perjalanan atau untuk mengetahui lokasi-lokasi hotel, restoran, ATM dan
pompa bensin di sekitar jalan/kawasan tertentu.
Sistem navigasi kendaraan biasanya bersifat dinamis dan mobile (bergerak), dan secara fisik dipasang di
dasbor kendaraan. Tambahan yang juga berguna untuk sistem informasi geografis bergerak ini adalah unit GPS
(Global Positioning Sistem), yang menggunakan informasi pancaran (broadcast) dari satelit untuk menemukan
lokasi objek tertentu dengan akurasi hingga puluhan meter. Dengan bantuan sistem semacam ini, seorang
pengemudi tak perlu kuatir sampai tersesat, karena dengan bantuan GPS dan Basis Data Geografis kita dapat
mengetahui secara tepat di mana kendaraan berada dan jalanjalan di sekitar kendaraan.
Basis Data Geografis yang mengelola informasi tentang instalasi publik (listrik, air dan telepon kabel)
menjadi sangat penting dewasa ini sejalan dengan peningkatan dan kompleksitas jaringan kabel/jaringan pipa di
bawah tanah. Minimnya peta detail untuk masing-masing jaringan, bisa mengakibatkan pekerjaan untuk
sebuahjaringan publik yang satu dapat merusak jaringan yang lain, yang tentu saja dapat menghasilkan gangguan
pelayanan kepada pelanggan. Basis Data Geografis yang dilengkapi sistem pencarian lokasi, dapat dimanfaatkan
untuk menghindari kemungkinan kerusakan yang tidak disengaja semacam ini di kemudian hari.
1 Basis Data untuk Multimedia (Multimedia Databases)
Saat ini semakin marak pemakaian basis data untuk menyimpan data multimedia, seperti gambar, audio dan
video. Umumnya, data multimedia tersebut disimpan di luar basis data, yaitu pada file-file terpisah. Dan di saat
jumlah objek multimedia tersebut masih relatif kecil, maka fasilitas-fasilitas dalam lingkungan basis data menjadi
tidak begitu bermanfaat dan relevan.
Fungsionalitas basis data akan menjadi penting pada saat jumlah objek multimedia yang disimpan tersebut
sudah semakin banyak. Isu-isu seperti perubahan, pencarian dan pengindeksan menjadi penting dan relevan. Objek-
objek multimedia seringkali memiliki atribut-atribut deskriptif, seperti waktu pembuatan, nama pembuat dan jenis
data multimedianya. Salah satu pendekatan dalam pembentukan basis data untuk objek-objek multimedia adalah
dengan memanfaatkan basis data untuk menyimpan atribut-atribut deskriptif dan untuk menyimpan informasi track
dari file di mana objek-objek multimedia tersebut disimpan secara fisik.
Akan tetapi, menyimpan objek multimedia sendiri (gambar, audio, video) di luar basis data membuatnya
lebih sukar untuk memberikan fungsionalitas basis data yang optimal, seperti pengindeksan. Hal itu juga dapat
mengarah munculnya inkonsistensi, jika misalnya file-file yang informasi deskriptif dan lokasinya tersimpan di basis
data sudah tidak ada atau telah dipindahkan. Karena itu sangat beralasan untuk menyimpan objek-objek ini di dalam
basis data yang sama. DBMS Oracle menyediakan tipe data BLOB (singkatan dari Binary Large Object) dan DBMS
Sybase menyediakan tipe data image untuk menyimpan data multimedia untuk jenis gambar.
Beberapa isu yang harus diketahui jika data multimedia disimpan dalam sebuah basis data :
 Basis data (dan DBMS) harus mendukung penyimpanan objek-objek yang besar, karena data multimedia
seperti video bisa membutuhkan ruang penyimpanan hingga beberapa GB (gigabyte).
 Pencarian dan pengambilan data berdasarkan kesamaan diperlukan dalam aplikasi-aplikasi basis data
multimedia. Sebagai contoh, dalam sebuah basis data yang menyimpan citra sidik jari, sebuah query sidik jari
dapat diberikan, yang menghasilkan daftar sidik jari yang cocok. Struktur indeks semacam B+-tree atau R-
tree tidak cocok digunakan untukkeperluan ini, karena itu struktur indeks yang khusus untuk itu perlu dibuat.
 Pengambilan sejumlah tipe data, seperti audio dan video, juga membutuhkan syarat khusus yaitu data yang
disimpan harus dapat diproses dan disajikan dalam kecepatan yang konstan. Data semacam ini biasa disebut
data media kontinu (continuous-media data).
1.1.6 Pengambilan Berbasis Kesamaan (Similarity-Based Retrieval)

Dalam banyak aplikasi multimedia, data dalam basis data dideskripsikan hanya Sebagai pendekatan
(aproksimasi) dari fakta yang sesungguhnya. Kita telah mengemukakan contoh sebelumnya tentang data sidik jari.
Sangat tidak efisien dan tidak relevan untuk menyimpan semua fakta dalam sidik jadi. Yang perlu disimpan
hanyalah bagian-bagian sidik jari yang penting yang kelak bisa menjamin pencarian secara akurat dan cukup cepat.
Contoh lainnya adalah :
 Data Foto. Dua foto atau citra yang agak berbeda yang kemudian direpresentasikan dalam basis data dapat
dianggap sama oleh pemakai. Sebagai contoh, sebuah basis data digunakan untuk menyimpan rancangan merk
dagang. Ketika sebuah rancangan merk dagang yang baru ingin didaftarkan, sistem basis data mula-mula dapat
memeriksa semua merk dagang yang mirip rancangannya yang sebelumnya telah dientri, sehingga pendaftaran
merk dagang yang baru dapat ditolak.
 Data Audio. Saat ini telah marak digunakan fasilitas antar muka (Interface) pemakai yang berbasis suara.
Dengan fasilitas ini pemakai dapat memberikan perintah atau mengidentifikasi item data dengan suaranya.
Masukan dari pemakai harus ditest untuk mencari kecocokan dengan perintah-perintah yang telah tersimpan di
dalam sistem.
 Data Tulisan Tangan. Uji kemiripan diperlukan untuk menguji kesamaan tulisan tangan seseorang dengan data
tulisan tangan yang telah tersimpan di basis data yang mungkin berasosiasi dengan perintah atau makna
tertentu.
Kemiripan seringkali bersifat subjektif dan amat tergantung definisi pemakai. Namun demikian, pengujian
kemiripan cukup sukses untuk pengenalan suara dan tulisan tangan, karena data masukandapat dibandingkan dengan
data yang telah tersimpan dalam basis data, dan karena himpunan pilihan yang tersedia juga terbatas.
1.1.7 Data sinambung (Continuous-Media Data)

Tipe data sinambung yang paling penting adalah data video dan audio. Sistem data sinambung ditandai
dengan ukuran data yang sangat besar dan kebutuhan akan pengiriman data yang real-time.
 Data harus dikirim dengan cukup cepat agar tidak ada jeda (yang
mengganggu) dalam penyajian audio dan penayangan video.
 Data harus dikirim dalam kecepatan. yang, memadai dan konstan yang tidak membuat sistem menjadi overflow
(yang bisa membauat suara atau gambar ditayangkan terlalu cepat)
 Sinkronisasi antara aliran data yang berbeda harus dijaga. Hal ini diperlukan ketika misalnya suara dari
seseorang (aspek audio) harus sinkron dengan gerakan bibir dari orang tersebut (aspek video).
2 Basis Data Bergerak (Mobility and Personal Databases)

Basis Data komersial yang berukuran besar umumnya disimpan dan dikelola dalam fasilitas komputasi terpusat.
Sementara pada aplikasi basis data terdistribusi, umumnya tetap ada basis data sentral yang didukung oleh jaringan
yang handal. Namun dua trend teknologi yang berkembang akhir-akhir ini telah bersinergi membentuk aplikasi-
aplikasi yang membuat asumsi tentang kontrol dan administrasi terpusat tidak sepenuhnya benar :
1. Peningkatan penggunaan PC, terutama yang berbentuk komputer jinjing (laptop atau notebook)
2. Pembangunan infrastruktur komunikasi dijital nirkabel (wireless) yang relatif berbiaya rendah, yang menjadi
dasar jaringan lokal nirkabel, jaringan paket digital dan teknologi lainnya.
Komputasi bergerak (mobile) telah memberi banyak manfaat pada berbagai aplikasi. Para pebisnis yang banyak
bepergian dapat menggunakan komputer jinjing yang memungkinkan mereka bekerja dan mengakses data selama
perjalanan. Layanan kurir bisa menggunakan komputer bergerak untuk membantu penelusuran paket. Dan masih
banyak lagi aplikasi dari komputer jinjing/bergerak semacam ini.
Sementara komputasi nirkabel (dalam sebuah jaringan nirkabel) menciptakan situasi di mana mesin tidak harus
memiliki lokasi alamat jaringan yang tetap. Hal ini memang memperumit pemrosesan query, karena akan menjadi
sukar untuk menentukan lokasi optimal untuk membentuk hasil query. Dalam banyak kasus, lokasi dari pemakai
juga sering menjadi parameter dari query. Sebagai contoh, sistem informasi perjalanan yang menyediakan data
tentang hotel, panduan perjalanan dan sebagainya. Queryterhadap data semacam itu didasarkan pada lokasi user,
arah pergerakan dan bahkan kecepatannya.
1.1.8 Model Komputasi Bergerak

Lingkungan komputasi bergerak terdiri atas komputer jinjing di satu sisi, yang bisa juga kita sebut sebagai
stasiun bergerak (mobile host), dan jaringan komputer kabel yang saling terhubung di sisi yang lain. Umumnya
mobile host berkomunikasi dengan jaringan kabel melalui komputer-komputer yang disebut stasiun pendukung
bergerak (mobile support station). Setiap mobile support station mengelola mobile host dalam sebuah sel (area
geografis di mana host tersebut terpantau). Mobile host dapat berpindah antar sel, yang ditandai dengan pemindahan
(handoff) kontrol dari mobile support station yang satu ke mobile support station yang lain. Karena terbatasnya daya
listrik, sebuah mobil host dapat meninggalkan,sebuah sel dan tiba-tiba tersambung kembali pada sel yang lainnya.
Karena itu, pergerakan antar sel belum tentu di antara sel-sel yang bertetangga. Dalam sebuah area yang kecil,
seperti dalam bangunan kantor, mobile host dapat terkoneksi dengan jaringan lokal nirkabel yang memberikan
konektivitas yang lebih hemat daripada dengan jaringan seluler yang berarea lebar. Dimungkinkan pula bagi mobile
host yang berdekatan untuk saling berkomunikasi tanpa intervensi dari mobile support station.
1.1.9 Routing dan Pemrosesan Query

Konsekuensi dari model komputasi bergerak adalah bahwa rute antara sepasang host dapat berubah-ubah
setiap waktu jika satu dari dua host bersifat mobile. Fakta sederhana ini memberi dampak yang dramatis pada level
jaringan, karena alamat jaringan yang berbasis lokasi tidak dapat digunakan lagi di dalam sistem.
Konsekuensi lainnya dari model komputasi bergerak secara langsung mempengaruhi pemrosesan query ke
basis data. Sebagaimana yang telah disebuntukan sebelumnya, strategi pemrosesan query terdistribusi akan
tergantung juga pada biaya komunikasi. Pergerakan host tentu saja dapat mengubah biaya komunikasi ini secara
dinamis, dan selanjutnya memperumit proses optimasi. Hal-hal lain yang juga harus dipertimbangkan adalah :
 Waktu pakai (user time), yang merupakan komoditas yang paling mahal dalam banyak aplikasi bisnis.
 Waktu koneksi (connection time), yang merupakan satuan biaya di mana biaya dibebankan oleh operator
jaringan seluler.
 Volume data, yang menunjukkan satuan transfer data yang dikenai biaya oleh operator jaringan.
 Biaya berdasarkan waktu pakai, yang besarnya bervariasi tergantung kapan komunikasi dilangsungkan (biaya
pada waktu sibuk dan pada waktu tidak sibuk berbeda).
 Energi host terbatas. Seringkali, daya baterai host harus pula dihemat dan diperhitungkan. Daya yang
dibutuhkan untuk pengiriman data dan penerimaan data besarnya berbeda, seperti yang juga kita temui dalam
komunikasi radio.
3 Sistem Pencarian Informasi (Information Retrieval)
Sistem Pencarian Informasi (Information-Retrieval Sistem) merujuk pada sebuah sistem yang terhubung
dengan banyak sumber data (yang umumnya tersimpan dalam dokumen/file) dan menyediakan sarana pada pemakai
untuk melakukan pencarian informasi dengan menggunakan kata kunci pencarian (keyword). Sistem semacam ini
sering dimanfaatkan oleh aplikasi pencarian data (search engine) di dunia Internet, seperti yang disediakan oleh
yahoo.com, google.com, altavista.com dan lain-lain. Bidang pencarian informasi (information retrieval) sebenarnya
telah dikembangkan sejalan dengan perkembangan dunia basis data. Karena itulah, pembahasan tentang Sistem
Pencarian Informasi tidak bisa dilepaskan dari Sistem Basis Data yang menjadi pokok bahasan dalam buku ini.
Dalam Sistem Pencarian Informasi, informasi disimpan dan diorganisasi dalam berbagai dokumen (file), dan
diasumsikan bahwaada banyak dokumen yang tercipta/tersedia. Proses pengambilan dokumen (yang diperlukan
pemakai) diawali dengan pencarian dokumen-dokumen yang relevan, berdasarkan masukan dari user, yang
umumnya berupa kata kunci (keyword) atau contoh dokumen.
Salah satu contoh yang umum dari penerapan sistem semacam ini adalah katalog perpustakaan on-line. Data
dalam sistem seperti ini diorganisasi sebagai kumpulan dokumen. Setiap entri dalam katalog perpustakaan
merupakan sampel (bagian utama) dari dokumen. Seorang pemakai mungkin ingin mendapatkan dokumen atau
kelompok dokumen tertentu. Dokumen-dokumen yang dicari tersebut biasanya diidentifikasi dengan menggunakan
kata kunci, sebagai contoh "pemrograman pascal" dapat digunakan untuk mencari semua buku Yang
menyinggung/membahas tentang pemrograman berbahasa Pascal.
Ada sejumlah perbedaan antara model semacam ini dengan model yang digunakan dalam sistem basis data
tradisional :
 Sistem Basis Data terbiasa dengan operasi perubahan (update), Yang diikuti dengan kebutuhan akan kendali
konkurensi. Aspek ini dianggap kurang penting (jarang atau bahkan tidak pernah dilakukan) dalam Sistem
Pencarian Informasi. Mirip dengan itu, Sistem Basis Data berhubungan dengan informasi terstruktur Yang
diorganisasi dengan model data yang relatif kompleks (seperti dalam model relasional atau model berorientasi
objek), sementara Sistem Pencarian Informasi umumnya menggunakan model yang lebih sederhana, di mana
keseluruhan informasi diorganisasi sebagai kumpulan dokumen yang tidak terstruktur.
 Sistem Pencarian Informasi berhubungan dengan sejumlah isu yang belum sepenuhnya ditangani dalam Sistem
Basis Data, seperti problem penyimpanan dan pengelolaan dokumen yang tidak terstruktur, pencarian dengan
kata kunci (keyword) dan pengambilan dokumen berdasarkan tingkat relevansi dokumen terhadap query.
4 Pengindeksan Dokumen
Struktur indeks yang efektif menjadi penting untuk mendapatkan pemrosesan query yang efisien dalam
Sistem Pencarian Informasi. Sistem ini dapat mencari dokumen yang berisi keyword tertentu dengan memanfaatkan
inverted index, yaitu indeks yang memetakan setiap keyword K, ke dalam himpunan S, yang menjadi pengenal
(identifier) dokumen-dokumen yang mengandung K,. Untuk mendukung urutan relevansi berdasarkan kedekatan
keyword, sebuah indeks dapat memberikan tidak hanya identifikasi dokumen, tetapi juga daftar lokasi ditemukannya
keyword tersebut di dalam dokumen. Karena indeks demikian harus disimpan di dalam disk, organisasi indeks juga
berusaha meminimalkan banyaknya operasi 1/0 dalam melakukan pengambilan kumpulan dokumen yang berisi
keyword tersebut.
1.1.10 Browsing dan Hypertext

Sistem informasi awalnya dibayangkan sebagai sebuah sistem katalog perpustakaan (yang hanya berisi data
deskriptif dari dokumen), di mana dokumen-dokumen fisiknya (hardcopy) ditempatkan di luar sistem. Akan tetapi,
sejalan dengan peningkatan kapasitas disk yang semakin besar, maka saat ini Sistem Pencarian Informasi juga dapat
digunakan untuk menyimpan dokumennya sendiri (softcopy). Sebagai hasilnya, akan lebih banyak dokumen yang
dapat dibuat, disimpan dan diakses secara online. Karena itulah, Sistem Informasi generasi sekarang memungkinkan
pemakai untuk menampilkan dokumen yang tersimpan secara utuh dan real-time.
Seorang anggota perpustakaan biasanya menggunakan katalog untuk mencari sebuah buku. Ketika dia
mendapatkan buku tersebut dari raknya, bagaimanapun juga dia akan terdorong pula untuk mengamati (browse)
buku-buku yang terletak di sekitar buku yang dicarinya. Perpustakaan biasanya menempatkan buku-buku yang
sejenis berdekatan secara fisik satu sama lain.
Untuk mengatur penempatan buku yang berkaitan tersebut, perpustakaan biasanya menggunakan
pengelompokan (klasifikasi) yang hirarkis. Dengan cara ini, buku-buku yang berkenaan dengan matematika
misalnya, dikelompokkan dan diletakkan berdekatan satu sama lain, begitu juga buku-buku yang berkaitan dengan
komputer, buku-buku yang berhubungan dengan hukum, dst. Dalam batas-batas tertentu, topik matematika dan ilmu
komputer juga memiliki hubungan yang cukup dekat, karena itu kelompok buku matematika dan kelompok buku
ilmu komputer juga diletakkan berdampingan. Menjadi kurang wajar jika kelompok buku ilmu komputer
ditempatkan di sebelah kelompok buku tentang busana. Bersama dengan kelompok buku-buku biologi, fisika, d1l,
kumpulan buku matematika dan ilmukomputer bisa membentuk superklas yang sama, yaitu ilmu pengetahuan
(science). Begitu juga pada level di bawahnya, boleh jadi untuk ilmu komputer terjadi juga pengelompokan yang
lebih kecil (semacam sub kelompok) untuk buku-buku yang berkaitan dengan sistem operasi, pemrograman, basis
data, dan sebagainya. Gambar 14.5 menunjukan pengelompokan hirarkis tersebut.
Gambar 9-5Pengelompokan Buku dalam Perpustakaan
Tidak sebagaimana di perpustakaan, dalam sebuah Sistem Pencarian Informasi, tidak ada satu kebutuhan dan
keuntungan yang signifikan untuk menempatkan dokumen-dokumen yang berkaitan dekat (secara fisik) satu sama
lain. Kecepatan pengaksesan disk cukup cepat untuk bisa berpindah dari satu lokasi fisik dokumen yang satu ke
lokasi dokumen yang lain. Akan tetapi, sistem semacam ini memerlukan pengorganisasian dokumen secara lojik
yang memungkinkannya ditelusuri/diamati secara bersamaan. Dengan begitu, sistem juga dapat menggunakan
pengklasifikasian hirarkis sebagaimana yang diterapkan pada sistem perpustakaan, agar ketika isi sebuah dokumen
ditampilkan, maka deskripsi ringkas dari buku-buku yang berhubungan juga dapat diperlihatkan.
Dalam sebuah Sistem Pencarian Informasi, tidak ada keharusan untuk mematuhi hirarki secara ketat. Sebuah
buku yang berbicara tentang "analisa numerik" boleh jadi diklasifikasikan di bawah kelompok ilmu komputer dan
sekaligus juga berada di bawah kelompok matematika. Buku-buku dari sebuah kelompok ditunjuk oleh sebuah
kelompok dengan bantuan pointer, yang merupakan pengidentifikasi buku (identifier).
Sebagai hasil dari fleksibilitas ini, sebuah buku tidak hanya dapat menjadi anggota dari dua kelompok
berbeda, tapi juga sebuah sub kelompok bisa berada di bawah dua kelompok yang berbeda. Misalnya,sub kelompok
pernrograman yang berada di bawah kelompok ilmu komputer, juga dapat dipertimbangkan berada di bawah
kelompok rekayasa. Dengan begitu, kita dapat menyatakan klasifikasi hirarki sebagai graph asiklik berarah (directed
acyclic graph/DAG), seperti yang ditunjukkan pada Gambar 14.6. Pada gambar ini, kelompok buku Pe?nrograman
dapat dicapai dan ditelusuri dari banyak arah.
Gambar 9-6Pengelompokan DAC dalam Sistem Pencarian Informasi

Dalam menjawab sebuah query yang diberikan, Sistem Pencarian Informasi tidak hanya dapat inenarnpilkan
dokumen-dokumen yang -berhubungan, tetapi bahkan juga menampilkan kelompok-kelompok hirarkis yang
berhubungan. Selanjutnya pemakai dapat melihat semua buku (atau sub kelompok) yang menjadi anggota/bagian
dari sebuah kelompok.
5 World Wide Web (WWW)

Informasi pada Web disimpan di dalam sebuah dokumen. Dokumen–dokumen ini yang menjadi unsur utama
di dalam Web yang dapat dinyatakan dalam beberapa tipe. Tipe yang paling populer adalah dokumen hypertext
yang disusun menurut bahasa khusus seperti Hypertext Mark Up Language (HTML). Dokumen HTML ini terdiri
atas teks, spesifikasi jenis huruf dan instruksi format lainnnya, dan didalamnya juga terdapat link ke dokumen
lainnya atau ke halaman lain pada dokumen yang sama dengan menggunakan suatu protokol yang disebut
dengan Hypertext Transfer Protocol (HTTP). Dokumen dan lokasi antar dokumen ini diidentifikasi oleh sebuah
alamat yang disebut Uniform Resourcer Locator (URL) .
1.1.11 WEB Sebagai Bentuk Aplikasi Basis Data

Ketika banyak vendor DBMS memberikan solusi untuk berbagai konektifitas basis data, termasuk didalamnya
konektifitas ke aplikasi berbasis web, hal ini membuat beberapa organisasi ingin bergerak untuk menggunakan
aplikasi basis data berbasis web (Web-Based Application).
Web-Based Application merupakan sebuah aplikasi yang memanfaatkan teknologi World Wide Web sebagai
Interface-nya, yang berarti data yang diinginkan dapat diakses dan diubah dengan menggunakan sebuah Web
Browser. Ini sangat menguntungkan sebuah perusahaan karena aplikasi ini dapat dijalankan di sembarang komputer,
selama komputer tersebut memiliki Web Browser terpasang di dalamnya.
Beberapa keuntungan lainnya dari Web-Based Applications ialah:

1. Data dapat diakses kapan saja dan dari mana saja asal terhubung dengan internet (availability tinggi).
2. Interoperability tinggi.
3. Mudah dipakai, pemakai cukup melakukan point & click,
4. Murah karena tools untuk melakukan browsing banyak tersedia dan gratis.
Proses untuk aplikasi berbasis Web biasanya lebih banyak dilakukan diserver. Hasil proses itulah yang
kemudian dikirim ke client melalui HTTP dalambentuk halaman-halaman Web. Selain Web server dan browser,
aplikasi berbasisWeb tidak jarang melibatkan basis data. Dalam kasus ini Web server dengan suatumekanisme dapat
mengakses basis data dan kemudian mengolah data lalu dikirimke client. Dilihat dari kedekatan program aplikasi
dengan penyimpanan data,sisitem ini dapat dikategorikan sebagai sistem three-tier. Dalam pemrogramanthree-tier,
aplikasi dipecah menjadi tiga bagian, yaitu antarmuka pengguna,computational logic, dan penyimpanan data (basis
data).Untuk aplikasi three-tier berbasis Web, browser di client berfungsi sebagaiantarmuka pengguna, Web server
akan melakukan computational logic, danprogram basis data, berfungsi sebagai penyimpan data. Secara umum
skemaaplikasi three-tier berbasis Web dapat dilihat pada Gambar 14.7. Pada gambartersebut penomoran tier
dihitung dari antarmuka pengguna.
Gambar 9-7Arsitektur Web
Adanya antar muka antara web dan basis data menjadi penting dikarenakan dua alasan yaitu :
1. Bersamaan dengan adanya pertumbuhan perdagangan elektronik atau E- Commerce, pengolahan
transaksi harus dapat dihubungkan dengan web. Parapemakai berinteraksi dengan basis data secara tidak
langsung melalui serangkaian interaksi dokumen HTML yang kemudian dikirim sebagai reaksi untuk server dan
selanjutnya digunakan sebagai parameter oleh program di server untuk melakukan pengolahan transaksi tertentu
pada basis data.
2. Keterbatasan yang dimiliki oleh dokumen HTML, seperti :
a) Pemakaian dokumen web yang tetap tidak memungkinkan penampilan disesuaikan dengan keinginan
pemakai, misalnya sebuah perusahaan mungkin menginginkan materi promosinya disesuaikan dengan
keinginan pembeli.
b) Pada saat data di suatu basis data mengalami perubahan, maka dokumen–dokumen web yang melibatkan
data yang sama menjadi tidak diperbaharui kembali jika tidak segera disesuaikan. Hal ini akan semakin
merepotkan jika dokumen tersebut tersebar di sejumlah lokasi.
Untuk mengatasi keterbatasan ini maka dibuatlah suatu dokumen web yang lebih dinamis dengan terlebih dahulu
membuat antar muka web dengan basis data. Sehingga pada saat dokumen diminta oleh pemakai, sebuah
program di web server akan dieksekusi untuk menjalankan operasi queri ke basis data dan membuat dokumen
sesuai dengan hasil queri tersebut. Dengan mekanisme ini maka informasi yang diinginkan oleh pemakai dapat
terefleksi dengan baik.
Rangkuman
1. Secara umum aplikasi-aplikasi basis data dapat kita bedakan kedalam dua kelompok, yaitu pemrosesan
transaksi (transaction processing) dan pendukung keputusan (decision support).
2. Secara sederhana Data Mining merujuk pada upaya pencarian informasi yang paling terkait, atau
"menemukan pengetahuan", dari sejumlah besar data.
3. Dalam Data Mining, yang terpenting dan, sekaligus tersulit dari penjelasan di atas adalah bagaimana
aturan-aturan (yang merepresentasikan pengetahuan) dari basis data tersebut dapat kita peroleh.
4. Data warehousememberikan pemakai sebuah akses ke data yang terkonsolidasi, sehingga queryuntuk
pengambilan keputusan menjadi lebih mudah untuk ditulis.
5. Basis Data Spasial ditujukan bagi penyimpanan data yang berkaitan dengan lokasi-lokasi dan ruang
geometric, dan mendukung query dan penggunaan indeks yang efisien berdasarkan data lokasi/ruang
tersebut.
6. Basis Data Geografis telah banyak dimanfaatkan, seperti pada sistem navigasi kendaraan, sistem informasi
jaringan distribusi untuk instalasi publik (telepon kabel, listrik dan air), demikian juga sistem informasi
yang banyak digunakan untuk ahli lingkungan dan perencanaan.
7. Salah satu pendekatan dalam pembentukan basis data untuk objek-objek multimedia adalah dengan
memanfaatkan basis data untuk menyimpan atribut-atribut deskriptif dan untuk menyimpan informasi track
dari file di mana objek-objek multimedia tersebut disimpan secara fisik.
8. Konsekuensi dari model komputasi bergerak adalah bahwa rute antara sepasang host dapat berubah-ubah
setiap waktu jika satu dari dua host bersifat mobile.Konsekuensi lainnya dari model komputasi bergerak
secara langsung mempengaruhi pemrosesan query ke basis data.
9. Sistem Pencarian Informasi (Information-Retrieval Sistem) merujuk pada sebuah sistem yang terhubung
dengan banyak sumber data (yang umumnya tersimpan dalam dokumen/file) dan menyediakan sarana pada
pemakai untuk melakukan pencarian informasi dengan menggunakan kata kunci pencarian (keyword).
10. Web-Based Application merupakan sebuah aplikasi yang memanfaatkan teknologi World Wide Web
sebagai Interface-nya, yang berarti data yang diinginkan dapat diakses dan diubah dengan menggunakan
sebuah Web Browser.

Penggalian Data

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Penggalian Data

Diunggah oleh

Hak Cipta:

Format Tersedia

Penggalian Data (Data Mining)

Penggudangan Data (Data Warehousing)

 Skema Konsolidasi yang digunakan.

Basis Data Spasial (SpatialDatabases)

Gambar 9-2Bentuk-bentuk Geografis. dan Representasinya

1.1.1 Representasi Informasi Geometris

a. 2 silinder dengan Difference b. 2 balok dengan Unio

1.1.3 Data Geografis

Gambar 9-4Objek sebagai Data Raster dan Data Vektor

1.1.4 Representasi Data Geografis

1.1.5 Aplikasi Data Geografis

1.1.6 Pengambilan Berbasis Kesamaan (Similarity-Based Retrieval)

1.1.7 Data sinambung (Continuous-Media Data)

2 Basis Data Bergerak (Mobility and Personal Databases)

1.1.8 Model Komputasi Bergerak

1.1.9 Routing dan Pemrosesan Query

1.1.10 Browsing dan Hypertext

Gambar 9-5Pengelompokan Buku dalam Perpustakaan

Gambar 9-6Pengelompokan DAC dalam Sistem Pencarian Informasi

5 World Wide Web (WWW)

1.1.11 WEB Sebagai Bentuk Aplikasi Basis Data

Beberapa keuntungan lainnya dari Web-Based Applications ialah:

Gambar 9-7Arsitektur Web

Anda mungkin juga menyukai