Anda di halaman 1dari 11

Pemodelan Sumber Informasi untukIntegrasi Informasi

Memodelkan sumber informasi untuk integrasi informasi1

Abstrak : Tujuan dari makalah ini adalah untuk menyajikan pendekatan dan alat otomatis untuk
merancang basis pengetahuan yang menggambarkan isi sumber informasi di PICSEL2 mediator
berbasis pengetahuan. Kami membahas dua masalah: masalah abstraksi dan masalah
representasi, ketika sumber informasi adalah database relasional. Pada bagian pertama, kami
menyajikan gambaran arsitektur mediator PICSEL yang menunjukkan komponen pengetahuan
utamanya. Kemudian, kami menjelaskan pendekatan dan alat yang telah kami terapkan (1) untuk
mengidentifikasi, melalui proses abstraksi, konsep utama yang relevan, yang disebut konsep
semantik, dalam model Hubungan Entitas dan (2) untuk membantu merepresentasikan konsep-
konsep ini menggunakan CARIN , bahasa logis yang menggabungkan logika deskripsi dan
Aturan Datalog, dan menggunakan istilah khusus dalam model domain aplikasi.

Kata kunci: pemodelan sumber informasi, identifikasi konsep, model hubungan entitas, logika
deskripsi, abstraksi pengetahuan, dukungan terhadap representasi pengetahuan.

Pendahuluan

Karya penelitian kami dikembangkan dalam konteks proyek PICSEL [Rousset & al., 98].
Tujuannya adalah untuk membangun server informasi di atas sumber informasi yang ada yang
didistribusikan dan mungkin heterogen. Pendekatan yang dipilih dalam PICSEL adalah
mendefinisikan server informasi sebagai berbasis pengetahuan mediatorantara pengguna dan
beberapa sumber informasi yang relatif terhadap domain aplikasi yang sama.

Ide dalam pendekatan mediator berbasis pengetahuan adalah untuk mengelola beberapa sumber
informasi yang heterogen berkat basis pengetahuan yang menggambarkan isinya dalam
formalisme logis dan menggunakan kosakata yang sama. Ini memberikan akses bersama ke
banyak data dan mempertahankan otonomi setiap sumber informasi. Mediator memainkan peran
antarmuka antara pengguna dan sumber memberikan ilusi query sistem terpusat dan homogen.
Tujuan dari makalah ini adalah untuk menyajikan pendekatan dan alat otomatis untuk merancang
basis pengetahuan (KB) yang menggambarkan isi sumber informasi dalam mediator berbasis
pengetahuan PICSEL.

Merancang KB semacam itu pertama-tama mengacu pada masalah abstraksi, kedua mengacu
pada masalah representasi. Tujuan dari masalah abstraksi adalah untuk mendefinisikan konsep-
konsep yang menangkap abstraksi dalam sumber informasi, yang dapat digunakan untuk
menggambarkan isinya. Masalah representasi yang muncul adalah pilihan bahasa representasi
dan juga masalah untuk merepresentasikan pengetahuan dengan bahasa formal yang mungkin
sulit digunakan dan dengan istilah-istilah tertentu.
Dalam makalah ini, kami membahas dua masalah ini ketika sumber informasi adalah database
relasional (DB). Pendekatan kami untuk memecahkan masalah abstraksi didasarkan pada model
Entity Relationship (ER) yang digunakan untuk memodelkan skema aplikasi database, sebuah
teknik yang telah terbukti sangat efektif untuk desain database. Model ER menarik karena
merupakan representasi abstrak dari data. Namun, mereka adalah model datar dengan semua
konsep pada level yang sama. Selain itu, model ER dibangun sesuai dengan aturan pemodelan
dan tidak selalu mewakili konsep yang relevan bagi pengguna database. Kami membutuhkan
mekanisme abstraksi untuk membuat kumpulan objek benar-benar terlihat dan relevan bagi
pengguna muncul. Dalam pendekatan kami, kami mengusulkan teknik otomatis untuk
mengidentifikasi konsep utama yang relevan, yang disebut konsep semantik, dalam model ER.
Teknik-teknik ini didasarkan pada mekanisme agregasi untuk membuat konsep tingkat yang
lebih tinggi dari yang primitif.

Setelah konsep yang akan dijelaskan dalam basis pengetahuan mediator diidentifikasi,
masalahnya kemudian menulis deskripsinya. Pernyataan dalam basis pengetahuan mediator
PICSEL harus diwakili dalam CARIN [Levy & al, 98], bahasa logis yang menggabungkan
logika deskripsi dan aturan Datalog. Selain itu, deskripsi dari isi semua database harus
direpresentasikan menggunakan kosakata yang sama. Hanya istilah domain aplikasi yang
diwakili dalam model domain mediator PICSEL yang dapat digunakan. Jadi, kita harus
mendapatkan deskripsi isi database, yang direpresentasikan dalam CARIN dan menggunakan
istilah dalam model domain, dari deskripsi yang direpresentasikan dengan bahasa pemodelan ER
dan menggunakan istilah khusus untuk database. Oleh karena itu, masalahnya adalah untuk
mendapatkan kecocokan antara konsep-konsep yang setara secara semantik yang
direpresentasikan dengan istilah yang berbeda dan formalisme yang berbeda. Ide untuk
memecahkan masalah representasi adalah dengan memanfaatkan kemampuan database
administrator (DBA). Administrator tahu isi database yang mereka kelola, mereka tahu persis arti
dari skema konseptual mereka. Dalam pendekatan kami, setiap administrator harus merancang
basis pengetahuan yang mengacu pada databasenya sendiri. Identifikasi konsep semantik
memungkinkan untuk mengatur deskripsi skema konseptual keseluruhan database, seperti skema
yang kadang-kadang sangat besar. Kami memandu kemudian DBA dalam deskripsi setiap
konsep semantik yaitu kami telah menerapkan alat otomatis untuk membantu mereka (1)
memahami arti kosakata model domain, (2) menulis kalimat CARIN, (3) mengkarakterisasi
konsep direpresentasikan dalam database dibandingkan dengan yang diwakili dalam model
domain dan menggunakan istilah dalam model domain.

Makalah ini disusun sebagai berikut. Pada bagian pertama, kami menyajikan gambaran arsitektur
mediator PICSEL yang menunjukkan komponen pengetahuan utamanya. Pada bagian kedua,
kami menyajikan pengertian konsep semantik. Bagian 3 berkaitan dengan identifikasi mereka
dalam model ER dan bagian 4 menjelaskan teknik otomatis untuk membantu DBA untuk
menggambarkan konsep semantik di CARIN.

I. Gambaran Arsitektur
I.1. Presentasi umum

Dalam PICSEL, seorang mediator telah dirancang menurut pendekatan berbasis pengetahuan. Ini
memiliki dua bagian utama: mesin kueri generik dan basis pengetahuan khusus untuk server
informasi. Basis pengetahuan berisi model domain aplikasi server dan deskripsi abstrak dari
konten sumber informasi yang dapat diakses dari server ini. Diberikan sebuah server informasi,
ada satu KB untuk memodelkan domain dan satu KB per sumber informasi untuk
menggambarkan isinya seperti yang ditunjukkan pada gambar 1. Model domain berisi semua
kosakata dasar yang digunakan untuk mengajukan pertanyaan. Mesin kueri bertanggung jawab
atas akses ke

sumber untuk mendapatkan jawaban atas pertanyaan pengguna. Deskripsi abstrak dari isi sumber
informasi membantu melokalisasi sumber yang relevan. Mereka diwakili dalam formalisme logis
yang sama dengan permintaan pengguna dan sebagai kalimat dalam model domain. Pembungkus
adalah modul khusus sehubungan dengan model data. Ketika sumbernya adalah DB relasional,
pembungkus bertanggung jawab atas terjemahan kueri yang dinyatakan dalam hubungan sumber
ke bentuk relasional.

Kami memberikan deskripsi komponen pengetahuan utama dalam mediator PICSEL pada
gambar berikut.

I.2. Komponen pengetahuan utama dalam mediator PICSEL

I.2.1. Model domain Model

domain berisi semua kosakata dari domain aplikasi yang digunakan untuk mengajukan
pertanyaan. Semua kategori objek yang dapat dipertimbangkan oleh pengguna server informasi
harus diwakili. Model domain dapat dilihat sebagai kategorisasi objek domain dari sudut
pandang berorientasi pengguna.

Model domain diwakili dalam CARIN [Levy & al., 98], bahasa logis yang menggabungkan
logika deskripsi3 dan aturan Datalog. Ini adalah bahasa formal. Semantiknya memastikan bahwa

3 Bahasa DL yang kami pertimbangkan dalam proyek PICSEL disebut sebagai core-CLASSIC.
Ini berisi konstruktor ∧(hubungannya), ∀(konsep pembatasan),(≥ n R),(≤ n R) (pembatasan
jumlah) dan ¬(negasi dari konsep dasar saja).

eksploitasi pada level simbol oleh mesin sesuai dengan maknanya pada level pengetahuan.
Sebuah model domain dibangun sebagai berikut. Pertama, kosakata dasar dalam hal predikat
dasar diperoleh. Relasi domain baru, signifikan untuk domain aplikasi, kemudian dapat
didefinisikan di atas relasi dasar menggunakan CARIN, baik dengan aturan atau dengan ekspresi
konsep. Hubungan dasar dan kompleks merupakan hierarki taksonomi yang dapat dibangun
secara otomatis.

Sebagai contoh, hirarki diwakili dalam gambar 2 dihitung dari ungkapan berikut:

Produk ⊆ (= 1 DepartureDate4)dan (= 1 arrivaldate),

Journey: = Produk ∧ (= 1 DeparturePlace) ∧ (= 1 ArrivalPlace) ∧ (= 1 MeansTransport),


Tanggal: = Produk ∧ (= 1 AssBuilding),

Flight: = Journey ∧ (∀MeansTransport.Plane),

= Penerbangan dan(∀TourismFlight:.MeansTransport(←SupersonicPlane)), VIPFlight: =


Penerbangan dan(∀MeansTransport .(←TourismPlane)) dan(≥ 1AssociatedMeal).

Kalimat-kalimat ini mendefinisikan konsep Journey, Stay, Flight, TourismFlight dan VIPFlight
dari konsep primitif Produk (predikat dasar, relasi unary) dan dari peran primitif (hubungan
biner) DeparturePlace, ArrivalPlace, MeansTransport. Konsep Produk setidaknya dicirikan oleh
satu tanggal keberangkatan dan satu tanggal kedatangan. Konsep Perjalanan didefinisikan
sebagai seperangkat produk yang memiliki tepat satu tempat keberangkatan, satu tempat
kedatangan dan satu sarana transportasi. Konsep Stay didefinisikan sebagai seperangkat produk
yang memiliki tepat satu bangunan yang terkait. Konsep Penerbangan didefinisikan sebagai
serangkaian perjalanan yang sarana transportasinya tentu saja pesawat. Konsep TourismFlight
didefinisikan sebagai satu set penerbangan yang sarana transportasinya bukan pesawat
supersonik sedangkan konsep VIPFlight adalah seperangkat penerbangan yang sarana
transportasinya bukan pesawat pariwisata dan yang memiliki setidaknya satu makanan terkait.

Product

Journey Stay

Flight

TourismFlight VIPFlift

Gambar 2: Hirarki taksonomi

Pekerjaan kami tidak berfokus pada desain model domain. Kami telah mempertimbangkan
bahwa model domain sudah dibangun.

I.2.2. Deskripsi abstrak dari isi sebuah sumber


Deskripsi abstrak dari sebuah sumber terdiri dari sekumpulan relasi sumber Vs1, Vs2, ..., Vsn
yang ditentukan: (1) pemetaan satu-ke-satu dengan relasi domain, (2) satu set kendala yang
digunakan untuk mengkarakterisasi contoh dari hubungan domain yang dapat ditemukan di a

sumber S. Sebagai contoh, untuk sumber S yang diberikan, deskripsi dapat mengatakan bahwa
kita dapat menemukan contoh tempat perumahan dan kendala dapat menunjukkan bahwa tempat
perumahan yang dapat kita temukan di S semuanya berlokasi di Prancis.

Lebih tepatnya, setiap deskripsi abstrak dari database relasional adalah basis pengetahuan yang
berisi dua set pernyataan: Is dan Cs. Apakah mewakili pemetaan dengan hubungan domain
dengan implikasi logis.

Contoh:

vS1(x) ⇒ HousingPlace(x), vS2(x, y) ⇒ Terletak(x, y) adalah dua elemen Is jika sumber S


mengandung contoh tempat perumahan dengan lokasi mereka, HousingPlace dan terletak
menjadi dua relasi di model domainnya.

Cs menunjukkan batasan yang diketahui untuk menahan hubungan database. Mereka diwakili
dengan inklusi inti-CLASSIC atau aturan ketidakcocokan.

Contoh:

Mari kita pertimbangkan bahwa semua tempat perumahan di S terletak di Eropa, tetapi tidak di
Jerman. Hal ini dapat dijelaskan berkat (1) pernyataan inklusi: vS1 ⊆ (∀vS2Eropa.)Dan (2)
aturan ketidakcocokan: vS1(x) ∧ vS2(x, y) ∧ Jerman(y) ⇒⊥.

I.3. Sumber informasi (database relasional) yang dapat diakses dari server informasi

Aplikasi DB relasional memainkan peran penting saat ini. Jadi, dalam makalah ini, kami fokus
pada sumber informasi yang merupakan DB relasional. Perkembangan DB relasional biasanya
didekomposisi dalam beberapa langkah. Salah satu langkah utama adalah pembangunan model
konseptual. Tujuannya adalah untuk memfasilitasi komunikasi antara desainer dan pengguna
akhir dengan menyediakan representasi konseptual dari aplikasi yang tidak mencakup banyak
detail tentang bagaimana data disimpan secara fisik. Salah satu model konseptual yang paling
populer dan menonjol adalah model Entity Relationship (ER) yang diperkenalkan oleh Chen
[Chen 76]. Model ER menunjukkan kelas objek mana yang dapat ditemukan dalam database.
Mereka adalah representasi abstrak dari data. Instance yang berguna dalam aplikasi
dikelompokkan ke dalam kelas atau konsep dan model ER mewakili kelas daripada instance
aktual.

Pendekatan yang kami usulkan untuk memodelkan database bergantung pada analisis model ER.
Itu tidak mengeksploitasi data database sama sekali. Diberikan pertanyaan, tujuannya adalah
untuk mengidentifikasi sumber informasi yang relevan yang dapat memberikan jawaban. Bukan
untuk mengidentifikasi sumber-sumber yang pada saat ini, berdasarkan datanya, mampu
memberikan jawaban atas pertanyaan tersebut. Namun, model ER tidak memberikan
konseptualisasi yang memadai untuk deskripsi isi database di PICSEL mediator. Model ER
cukup datar. Semua konsep diwakili pada tingkat yang sama. Selain itu, konstruksi model ER
dipandu oleh aturan pemodelan dan konsep yang direpresentasikan belum tentu relevan bagi
pengguna aplikasi database. Kami membutuhkan mekanisme abstraksi untuk membuat konsep
benar-benar terlihat dan relevan bagi pengguna muncul. (lih. bagian III)

Primitif dasar model ER adalah: entitas, hubungan, atribut. Kelas objek yang terdapat dalam
database disebut entitas dan objek di dalam entitas disebut instance. Bahasa memungkinkan
hubungan antara contoh entitas yang berbeda untuk diwakili. Setiap hubungan memiliki nama
yang digunakan untuk menggambarkan, dalamliteral

bentuk, hubungan antar instance. Atribut menggambarkan karakteristik instance dari suatu
entitas atau karakteristik dari instance terkait.

Batasan multiplisitas pada hubungan diberikan. Batasan multiplisitas menjelaskan pembatasan


jumlah minimum dan maksimum instance dari suatu entitas yang mungkin terkait dengan satu
instance dari entitas lain. Dalam Model ER, kendala multiplisitas pada hubungan mendefinisikan
aplikasi dari produk kardinal ExR (E adalah himpunan entitas dan R himpunan hubungan) ke
himpunan kardinalitas. Hal ini menimbulkan berbagai bentuk hubungan biner: satu-ke-satu, satu-
ke-banyak atau banyak-ke-banyak tergantung pada apakah jumlah maksimum dari dua pasang
kardinalitas yang sesuai dengan hubungan biner adalah 1, atau hanya satu dari mereka, atau tidak
satupun dari mereka.

Selanjutnya, pendekatan kami perlu mengkarakterisasi hubungan Model ER sesuai dengan


jumlah minimum kardinalitas. Kita akan berbicara tentang hubungan lemah (resp. kuat) menurut
entitas yang diberikan e jika jumlah minimum pasangan kardinalitas (e,r) adalah 0 (resp. 1).

II. Gagasan konsep semantik

Untuk memodelkan konsep yang relevan, kami mendefinisikan gagasan konsep semantik.
Gagasan ini telah diadaptasi dari objek alami yang modeldigunakan dalam modul Dialog dari
CASE TRAMIS [Brès, 93]. Salah satu tujuan dari model ini adalah untuk menggabungkan
entitas dan hubungan dari model ER untuk memungkinkan objek yang benar-benar terlihat oleh
pengguna untuk muncul.

Sebuah konsep semantik (SC) dapat dilihat sebagai pengelompokan entitas dan hubungan.
Pengelompokan seperti itu memunculkan satu entitas tertentu, yang disebut entitas root dari SC,
sementara yang lain hanya mencirikannya.
Misalnya, dalam model ER pada gambar 3, hanya dua objek yang terlihat oleh pengguna:
Wilayah (termasuk data departemen mereka dan data kota departemen ini) dan pengaturan
Regional (termasuk tur berpemandu). Itu berarti, dalam konteks database, wilayah tidak berarti
bagi pengguna tanpa informasi tentang departemen dan kota mereka. Sebuah departemen tidak
terlihat oleh pengguna selain dari wilayah. Setiap departemen selalu milik hanya satu wilayah
(pasangan kardinalitas (departemen, milik-1) adalah (1,1)). Data pada suatu departemen
kemudian dapat dilihat sebagai karakterisasi dari wilayah yang dimilikinya. Selanjutnya, dalam
database (selalu sesuai dengan model ER di bawah), beberapa kota tidak dekat dengan
pengaturan apa pun dan sebaliknya, beberapa pengaturan tidak dekat dengan kota mana pun.
Artinya konsep kota dan setting tidak saling bergantung satu sama lain.

Kita akan mengatakan bahwa suatu entitas e', terkait dengan entitas lain e oleh hubungan r,
mencirikan e jika jumlah maksimum pasangan kardinalitas dari (e',r) adalah 1. Dengan definisi
seperti itu, kita mempelajari, dalam bekerja, semua cara entitas e' mungkin terkait dengan yang
lain e tergantung pada jumlah kardinalitas (e', r) dan (e, r), r menjadi hubungan yang berkaitan e
dan e'. Ini mengarahkan kami untuk mendefinisikan beberapa derajat karakterisasi suatu
hubungan: none < lemah < kuat < pairable. Berikut ini, hubungan mirip dengan tautan
karakterisasi yang lemah, kuat, atau dapat dipasangkan.

Untuk mendefinisikan SC, model ER dilihat sebagai graf terhubung, di mana entitas adalah
simpul dan hubungan (link karakterisasi) adalah tepi atau tepi berarah. Tepi diarahkan hanya jika
itu adalah tautan karakterisasi yang kuat atau lemah.

Definisi Konsep Semantik: Diberikan subgraf G yang terhubung dari model ER, G adalah
Konsep Semantik jika graf S yang diperoleh lebih lanjut untuk dua operasi yang diterapkan pada
G (operasi pengelompokan dan operasi eliminasi) adalah kerangka.

Definisi konsep semantik' Kerangka: Diberikan konsep semantik G, S adalah kerangkanya jika: -
S adalah graf berarah terhubung.

- S memiliki simpul sumber tunggal V0 yang mewakili entitas akar dari G. - Semua simpul dari
S dapat dijangkau dari V0 dengan mengikuti tepi terarah (tautan karakterisasi). Titik yang dapat
dijangkau mewakili entitas yang mencirikan entitas akar dari G (V0).

- Setiap entitas G muncul di salah satu simpul kerangka. Ini menyiratkan bahwa semua entitas G
adalah entitas root, baik karakterisasi entitas root di S.

Misalnya, pada gambar 4, S diperoleh dalam dua tahap. Pertama, simpul G yang dihubungkan
oleh tepi yang merupakan tautan karakterisasi yang dapat dipasangkan (yaitu menghubungkan
entitas yang tidak dapat dipisahkan) dikelompokkan: itulah operasi pengelompokan. Kedua,
semua sisi yang tidak diarahkan dihilangkan: itulah operasi eliminasi. Tujuannya adalah untuk
menjaga hanya tepi yang mewakili hubungan karakterisasi antara entitas yang dapat dibedakan
dengan baik.
Dalam [Goasdoué, 98], kami telah menunjukkan bahwa setiap model ER selalu dapat dipecah
menjadi partisi konsep semantik (proposisi 1). Proposisi pertama ini membawa kami untuk
menemukan metode otomatis untuk membangun konsep semantik dari model ER. Metode yang
kami usulkan didasarkan pada

gagasan tentang kerangka. Pada bagian III, kami menjelaskan bagaimana pengertian kerangka
digunakan dan kami merinci proses konstruksinya.

III. Mengidentifikasi konsep semantik

Untuk membagi model ER menjadi SC, kami menggunakan metode berdasarkan penelitian
kerangka SC. Kami telah menunjukkan dalam [Goasdoué, 98] bahwa, dengan kerangka SC',
kami dapat menemukan SC yang sesuai pada model ER (proposisi 2). Selanjutnya, model ER
mungkin sangat besar dan kompleks. Dalam kasus seperti itu, mungkin sulit untuk menemukan
pengelompokan entitas dan hubungan yang relevan secara langsung pada model ER. Mungkin
juga sulit untuk bekerja secara langsung pada grafik yang mewakili keseluruhan model.
Sebaliknya, kerangka adalah grafik yang lebih sederhana daripada yang mewakili model ER atau
bahkan daripada SC berkat operasi pengelompokan dan eliminasi.

Jadi, untuk mengidentifikasi SC dari model ER yang diwakili oleh grafik G, kami memiliki tiga
tahap. Pada langkah awal pertama, kita membangun kerangka SG dari G. Kedua, kami membagi
SG menjadi kerangka yang berbeda secara bertahap. Akhirnya, menurut proposisi 2, kami
membangun SC yang sesuai dengan setiap kerangka SG yang berbeda. Dua langkah pertama
dijelaskan di bagian berikutnya.

Dalam pendekatan kami, kami selalu tertarik untuk menemukan konsep semantik terbesar. Kami
ingin menggambarkan model ER melalui sejumlah konsep minimum.

III.1. Langkah awal: membangun kerangka grafik yang mewakili model ER keseluruhan

Tujuan dari langkah ini adalah untuk menghitung kerangka model ER. Untuk melakukan ini,
kedua operasi yang sebelumnya diperkenalkan (pengelompokan dan eliminasi) dilakukan pada
seluruh model ER. Dengan menganalisis kerangka model ER, kami menentukan simpul mana
yang akan menjadi sumber kerangka (lih. gambar 6). Kami telah menunjukkan dalam
[Goasdoué, 98] bahwa mengingat simpul kerangka model ER, ia dapat menjadi milik satu dan
hanya satu kerangka terbesar (proposisi 3). Kami juga menunjukkan bahwa, dengan kerangka
model ER, kami dapat memutuskan untuk setiap simpulnya apakah itu akan menjadi sumber
kerangka terbesar atau tidak (proposisi 4). Sebagai ilustrasi, gambar 6 mewakili kerangka yang
sesuai dengan model ER pada gambar 5.
III.2. Identifikasi kerangka konsep semantik

Tujuan kami adalah untuk mengotomatisasi sebanyak mungkin proses identifikasi ini. Namun,
model ER mungkin sering dibagi menjadi beberapa cara yang berbeda. Administrator database
(DBA) yang sesuai dengan model ER adalah satu-satunya orang yang dapat memutuskan partisi
terbaik. Jadi, kami mengusulkan untuk membangun di awal yang pertama dengan cara yang
sepenuhnya otomatis. Partisi pertama ini hanya mengusulkan pengelompokan yang pasti
sehubungan dengan aturan konstruksi kami dan dengan demikian, yang tidak memerlukan
intervensi DBA. Kemudian, ditunjukkan kepada DBA yang dapat memutuskan pengelompokan
lebih lanjut.

Identifikasi konsep yang paling relevan dari database jelas merupakan proses yang tidak dapat
dilakukan tanpa kontribusi manusia, DBA. Pendekatan yang kami usulkan menarik karena
dengan jelas memisahkan proses dalam dua bagian, satu yang benar-benar dapat diotomatisasi
dan satu lagi yang lebih kecil yang membutuhkan DBA untuk membuat pilihan.

Untuk membangun partisi SC dengan cara deterministik, kami menunjukkan bahwa, dengan
kerangka model ER, hanya ada satu partisi menjadi kerangka terbesar (proposisi 5). Jadi, kami
mengembangkan algoritma untuk membagi kerangka Model ER ke dalam partisi kerangka
terbesar. Proses yang dilakukan bersifat inkremental. Kerangka (Kecil) dibangun dan setelah itu
seseorang dapat memutuskan untuk menggabungkan beberapa dari mereka.

Sebuah varian dari algoritma pencarian depth-first dilakukan untuk membangun partisi pertama.
Ini memungkinkan semua simpul yang dapat dijangkau dari simpul sumber dan yang bukan
sumber untuk dikelompokkan. Sebuah simpul sumber dan simpul yang dapat dijangkau darinya
membentuk kerangka (lih. gambar 7).

Kemudian proses penggabungan dilakukan. Kami mengilustrasikannya pada contoh di bawah


ini. Partisi akhir yang diperoleh dari gambar 7 direpresentasikan pada gambar 8.

- Misalkan SA dan SE menjadi dua kerangka yang simpul sumbernya masing-masing adalah A
dan E. Kita dapat melihat bahwa (1) E mencirikan D (karena tautan karakterisasi yang kuat
“de”), (2) E mencirikan F (karena tautan karakterisasi yang kuat “fe ”), (3) D dan F keduanya
merupakan karakterisasi dari A (karena karakterisasi yang kuat menghubungkan “ad” dan “af”).
Jadi, E dan

10

karakterisasinya juga karakterisasi A. Karena kami ingin membangun kerangka terbesar, kami
menggabungkan SA dan SE.

- Biarkan SA, SB, SG dan SH menjadi kerangka yang simpul sumbernya berturut-turut adalah A,
E, G dan H. Kita dapat melihat bahwa (1) B, G dan H mengkarakterisasi dirinya sendiri, (2) G
adalah karakterisasi F, (3) F adalah karakterisasi A Jadi, kita dapat menyimpulkan bahwa B, G
dan H mengkarakterisasi A. Karena kita ingin membangun kerangka terbesar, kita gabungkan
SA, SB, SG dan SH.

Pada akhir langkah identifikasi, kita memiliki partisi model ER menjadi SC (lihat gambar 9
misalnya). Masing-masing mewakili konsep semantik yang entitas signifikannya adalah entitas
root dari SC. Sekarang, untuk membangun basis pengetahuan yang akan mencerminkan isi
semantik dari model ER, yang diekspresikan dalam CARIN, kita harus mendeskripsikan masing-
masing SC yang diidentifikasi, dalam model domain.

11

IV. Menjelaskan konsep semantik di CARIN

Untuk membangun basis pengetahuan yang menjelaskan isi semantik dari database, kami telah
mengembangkan tiga alat: penjelajah konsep semantik, penjelajah model domain, dan komposer
kalimat CARIN. Semuanya adalah dukungan otomatis dalam deskripsi keseluruhan DB
relasional. Gagasan di balik pendekatan ini adalah bahwa ruang pilihan konsep untuk
dideskripsikan dapat, sampai batas tertentu, dikendalikan oleh pengenalan gagasan konsep
semantik. Dengan begitu, DBA harus mendeskripsikan DB-nya hanya bagian demi bagian, setiap
bagian sesuai dengan SC, representasi abstraksi dari data yang terkait secara semantik dan tidak
dapat dipisahkan.

IV.1. Penjelajah konsep semantik

Alat ini memungkinkan administrator database yang diberikan untuk menelusuri konsep
semantik yang diidentifikasi sebelumnya dari model ER-nya. Ini adalah cara untuk mengingat
kembali kepadanya gagasan penting untuk dijelaskan.

IV.2. Penjelajah model domain

Alat ini menampilkan semua hierarki yang dapat dihitung dari inklusi konsep dan pernyataan
deklarasi konsep dalam model domain (lih. hierarki yang disajikan dalam I.2.1)

Untuk setiap simpul hierarki yang merupakan konsep dasar, deskripsi dalam bahasa alami
tersedia. Selain itu, untuk setiap node, kita dapat mengambil semua peran yang memiliki tipe
node sebagai tipe dari salah satu argumennya. Jadi, DBA dapat menelusuri hierarki yang berbeda
untuk mempelajari kosakata yang ditentukan oleh model domain, atau menemukan konsep yang
mewakili gagasan terbaik yang ingin ia masukkan ke dalam basis pengetahuan.

Kami juga dapat membuat daftar semua peran terminologi, dengan, untuk masing-masing dari
mereka, artinya dalam bahasa alami. Selain itu, jika informasi juga tersedia dari model domain,
kami dapat menampilkan untuk setiap peran jenis konsep yang ditautkannya.
Sebagai contoh, kita dapat menyimpulkan bahwa peran DepartureDate membutuhkan konsep
jenis Tanggal sebagai argumen kedua dari ekspresi berikut: DepartureDate (X, Y) ∧ ←Tanggal
(Y) ⇒⊥.

IV.3. Seorang penyusun kalimat CARIN

Ketika seorang DBA memutuskan untuk menggambarkan suatu gagasan penting yang ditemui
dalam konsep semantik model ER-nya (berkat penjelajah konsep semantik), ia dapat memilih
konsep hierarki yang mewakili gagasan terbaik itu (berkat domain penjelajah model). Hasil dari
tindakan tersebut adalah untuk menghasilkan otomatis deklarasi sumber hubungan baru: vi(x) ⇒
Cj(x),yang Cj adalah konsep yang baru saja dipilih dalam model domain. Tujuan alat kami
adalah untuk membantu DBA mengkarakterisasi hubungan sumber tersebut.

Pertama, kami mencoba mengkarakterisasi vi menggunakan peran Rk (1≤k≤n) yang


berhubungan dengan objek Cj. Misalnya, peran DepartureDate, ArrivalDate, DeparturePlace,
ArrivalPlace dan MeansTransport dapat digunakan untuk mengkarakterisasi konsep Flight,
sesuai dengan model domain yang disajikan dalam I.2.1.

Kemungkinan karakterisasi dari vi disajikan berkat sumber hubungan inklusi seperti: vi ⊆ C1


dan C2 dan ... dan Cm,di mana masing-masing Cl (1≤l≤m) is of the form (≤ n Rk), (≥ n Rk) or
(∀Rk.Caccepted).

Anda mungkin juga menyukai