Anda di halaman 1dari 9

5.

7 XMLdan Semantic Web

Upaya baru-baru ini untuk menangani halaman web menjadi lebih sistematis, upaya
untuk mendorong pembuat atau pengelola laman web, untuk menyediakan tambahan informasi
tentang halaman web mereka dan informasi di dalamnya. ini sebagian adalah mengatasi
ketidakmampuan mesin telusur untuk menangani angka. kata-kata cukup tepat dibandingkan
dengan angka. terlepas dari semua diskusi sebelumnya tentang disambiguasi, kami memiliki
banyak kata seperti badak dan nama-nama seperti ayckbourn yang tidak mungkin disalah
pahami. untuk angka, semuanya jauh lebih buruk. ya, 2003 mungkin tanggal, tetapi jika anda
menemukan 75 dalam dokumen anda tidak tahu apakah itu nomor halaman, suhu, interval waktu,
atau apa.

gambar

<temperature>75</temperature>
or
<time-interval><minutes>75</minutes></time-interval>
or
<price><euro>75</euro></price>

halaman 144

Untuk memperjelas apa artinya 75 ini. perhatikan bahwa xml menggunakan bentuk yang
sama notasi braket sebagai sgml. karena XML adalah Sintaks, pengetahuan untuk menggunakan
"suhu," "temp," "derajat," atau "derajat-farenheit" sebagai tag di dalamnya kurung harus berasal
dari tempat lain. jadi untuk mencapai visi besar, di mana program bertindak untuk dibaca
pengguna halaman web dan membuat kesimpulan dari data mereka, kami membutuhkan lebih
dari ide penandaan data, di samping itu, beberapa kesepakatan tag yang akan digunakan. ini telah
dikenal sebagai semantic web dan merupakan salah satunya dari kata-kata kunci dari awal abad
dua puluh satu. semantic web adalah sebuah gabungkan area basis data dengan web, sehingga
kita dapat memiliki data skema dan file data yang disimpan di halaman web dan diakses oleh
program. dimana semantic web parts company dengan database tradisional ada di seluruh dunia.
secara tradisional, database adalah barang yang terisolasi, dan masing-masing adalah ditafsirkan
oleh pertanyaan dan perangkat lunak khusus hanya untuk database itu. semantik web
dimaksudkan untuk umum, sehingga setiap orang dapat menulis yang di halaman semantik web
dan bekerja dengan mereka. visi semantic web sangat dramatis. pengguna akan memiliki
preferensi mereka untuk melihat kamar hotel atau penerbangan, mengakses basis data secara
langsung, mengambil opsi, dan mengambil keputusan. agar ini berfungsi, kita perlu lebih dari
sekadar visi teknis. kita memerlukan tingkat kerjasama ekonomi dan teknis yang mungkin sulit
didapat.

1. setiap pengguna harus mengirim "skema data" untuk datanya.


2. setiap pengguna harus mendefinisikan setiap elemen data dalam skema itu.
3. setiap pengguna harus mendefinisikan elemen data dalam kosakata yang terkontrol.
4. setiap pengguna harus mendefinisikan hubungan data dalam kosakata yang terkontrol.

sekali lagi, "kosakata yang terkontrol" menunjukkan ontologi, memberikan definisi yang tepat
dari barang-barang aktual yang akan digunakan. dengan demikian, program seperti itu mungkin
lebih menekankan pada “tan”

halaman 145

Dari "krem" sebagai warna. belum jelas bagaimana ontologi ini akan terjadi dibuat atau
didefinisikan: banyak orang ingin membuat keputusan, sedikit memahami insentif untuk
menggunakannya. jika pengguna tidak bekerja sama, program orang lain tidak akan tahu apa
yang harus dilakukan membuat halaman web mereka. jika program anda untuk memilih jaket
harus berinteraksi dengan penjual pakaian misalnya, itu harus mengerti semua properti dari basis
data tersirat di halaman web. jadi, untuk menerapkan empat kami persyaratan untuk sukses
semantic web ke toko yang menjual jaket, pertimbangkan pertanyaan-pertanyaan berikut:

1. informasi apa yang datang dengan masing-masing jaket? ini adalah skema data,
menginformasikan program anda bahwa item termasuk harga, gaya, ukuran, warna, berat, dan
seterusnya. skema mungkin memiliki beberapa level; misalnya, mungkin ada menjadi kategori
"kain" dibagi menjadi "lapisan" dan "shell."
2. bagaimana informasi yang terkait dengan item? ini adalah definisi dari
elemen, sehingga kami mencari tag seperti <color> atau <price>.

3. apa nama yang digunakan untuk properti data yang berbeda? sebagai contoh, harga mungkin
ditentukan dalam dolar; kain dan warna mungkin dipilih sebuah daftar; tapi ontologi macam apa
yang akan menutupi semua gaya jaket seseorang mungkin ingin memasukkan katalog?

4. apa hubungan antara barang-barang ini? apakah pilihan kainnya

terhubung ke pilihan warna, atau anda bisa mendapatkan kisaran warna yang sama apakah anda
memesan lapisan wol atau lapisan kapas? apakah orang akan mencoba melakukan pelabelan
seperti itu dengan baik? sejarah metadata pada web tidak bagus; banyak situs menggunakan tag
“meta” untuk mencoba menipu mesin telusur. akankah orang setuju tentang cara mereka
melakukan pelabelan ini? itu tidak mudah untuk menentukan skema data dan menentukan bidang
dengan cara yang akan menyederhanakan jalan orang lain akan dapat mengaksesnya. secara
historis, hanya skema yang sangat sederhana (seperti format http asli) kemungkinan akan cepat
dijemput oleh banyak orang pengguna. skema kompleks kurang diterima secara umum; lihat
fgdc (federal komite data geografis) standar metadata untuk contoh.

<!ELEMENT PLAY (TITLE, FM, PERSONAE, SCNDESCR, PLAYSUBT, INDUCT?,


PROLOGUE?, ACT+, EPILOGUE?)>
<!ELEMENT TITLE (#PCDATA)>
<!ELEMENT FM (P+)>
<!ELEMENT P (#PCDATA)>
<!ELEMENT PERSONAE (TITLE, (PERSONA | PGROUP)+)>
<!ELEMENT PGROUP (PERSONA+, GRPDESCR)>
<!ELEMENT PERSONA (#PCDATA)>
<!ELEMENT GRPDESCR (#PCDATA)>

lebih kompleks organisasi data, semakin sedikit orang yang menggunakannya dan semakin kecil
kemungkinannya bahwa dua orang yang berbeda yang melihat potongan informasi yang sama
akan menjelaskannya dengan cara yang sama. untuk mulai mengatasi kerumitan mendefinisikan
data dalam xml, perhatikan bahwa xml harus digunakan bersama dengan definisi jenis dokumen,
yang disebut dtd. dtd menggambarkan skema data dari dokumen yang dienkode-xml: legal
komponen dan label yang bisa dimasukkan. misalnya, anda mungkin berpikir demikian satu
tahun bisa ditentukan sebagai terbuat dari 4 digit. itu akan langsung, tetapi apa yang anda
temukan dalam dokumen nyata adalah waktu yang dinyatakan sebagai “ca. 1920, "" sebelumnya
1910, "" selama 1930-an, "atau bahkan" dua tahun setelah pearl harbor.

gambar 5.4

<!element vendor (usedcars,newcars)>


<!element usedcars (usedcar*)>
<!attlist usedcar number cdata #required>
<!element usedcar (model,year)>
<!element model (#pcdata)>
<!element year (#pcdata)>
<!element newcars (newcar*)>
<!attlist newcar number cdata #required>
<!element newcar (model)>

structured and diagrammed knowledge representation (xml and tree).

halaman 147

Anda mungkin merasa bahwa sulit untuk melihat bagaimana formalitas ini sepadan
dengan kesulitan itu. terkadang representasi pengetahuan buatan tampaknya menjadi cara
mengatakan hal-hal yang jelas dengan cara yang tidak jelas. bahkan struktur yang ditunjukkan
pada gambar 5.4 masih sederhana dalam hal xml. itu benar tidak mengeksploitasi kekuatan
hubungan bernama. hubungan khusus bisa, pada prinsipnya, membantu dalam memahami
perbedaan antara frasa seperti: makanan rendah lemak (makanan yang terbuat dari bahan rendah
lemak) makanan anjing (makanan untuk diberikan kepada anjing) perbedaan antara frasa dapat
menjadi sangat rumit. rosario dan hearst (2001) membedakan spesialis sakit kepala, pasien sakit
kepala, interval sakit kepala, sakit kepala, bantuan sakit kepala, dan obat sakit kepala sebagai
frase nomina dengan berbeda makna. memang benar, tetapi menjadi sulit untuk benar-benar
menetapkan yang benar memberi label kepada mereka dan memproses dokumen dalam jumlah
besar. semuanya menjadi seimbang lebih kompleks ketika data numerik terlibat, dan interval
sakit kepala sebagai angka mungkin datang dalam beberapa menit dari minggu ke minggu.
bahkan orang-orang menolaknya beberapa proses yang terlibat.

halaman 148

Apakah akan ada mesin pencari gabungan teks-data yang menggunakan xml? ya, itu
industri yang bergerak untuk memasok ini. dalam sistem seperti itu, orang akan bisa
mengajukan jenis-jenis pertanyaan yang sulit di mesin pencarian web, seperti “judul
termasuk anjing kata dan tanggal publikasi setelah 2001. "beberapa pencarian online
mesin (mis., dialog) telah mendukung kueri seperti ini selama bertahun-tahun, tetapi sebagian
besar web basis data tidak. Vianu (2000) memberikan diskusi yang baik tentang teori XML
Database bagi mereka yang mencari detail teknis lebih lanjut. Shah dkk. (2002) telah melihat
bagaimana informasi retrieval akan berfungsi di lingkungan semantic web. mereka
membayangkan bukan hanya pengambilan dokumen hari ini, atau pengambilan fakta diaktifkan
oleh xml, tetapi logika deduktif untuk memungkinkan agen menggabungkan informasi yang
diambil dari dokumen berbeda. mereka berharap untuk formal ontologi untuk membakukan
kosakata dan pemrosesan bahasa alami untuk mengekstraksi unit informasi spesifik dari teks
biasa. sekarang dalam karya adalah rencana untuk layanan data mining yang luas berkeliling web
mencari kombinasi teks dan data untuk mengekstrak penting dan informasi menarik. misalnya,
Cannataro (2003) dijelaskan "Grid Pengetahuan," sebuah desain untuk penemuan pengetahuan
terdistribusi, di mana banyak komputer akan melakukan penambangan data secara paralel. semua
struktur ini menderita masalah umum yang harus mereka perdagangkan kekhususan dan
kekuatan untuk umum dan kemudahan penggunaan. saat seseorang mulai menegakkan kosakata
standar, dan pengkodean fakta dalam hubungan standar, itu menjadi lebih keras dan lebih keras
untuk memasukkan materi ke dalam sistem (atau untuk mengkategorikan apa yang sudah ada
sana). ketika seseorang menuntut hubungan yang lebih dan lebih spesifik, itu menjadi kurang dan
kecil kemungkinan bahwa seseorang akan menemukan kecocokan untuk relasi tertentu. dan
dengan demikian semakin banyak pekerjaan yang anda masukkan ke dalam pengkategorian,
ironisnya, semakin sedikit yang anda temukan sebagai hasilnya.

5.8 tautan yang diperoleh pengguna secara historis, tautan khusus yang disediakan oleh
pengguna sangat penting dalam penggunaannya perpustakaan; mereka datang dalam bentuk
referensi literatur. ini adalah dasar dari pengindeksan kutipan. selama beberapa tahun, indeks
kutipan sains (dari institut untuk informasi ilmiah, di philadelphia) telah mengindeks makalah
berdasarkan yang lain makalah yang mereka rujuk. sebagai alternatif untuk pengindeksan
berbasis kata kunci, ini bisa sering kali muncul dokumen yang sangat berbeda. di web, itu sama
mungkin untuk lacak melalui tautan hypertext ke halaman tertentu. don swanson telah
melakukan beberapa karya yang sangat provokatif pada hasil mempelajari istilah dan jaringan
kutipan (swanson, 1987, 1991, 1997, 2001). dia berhipotesis bahwa jika topik a dan topik b tidak
dihubungkan oleh kutipan, tetapi topik c sangat terhubung dengan keduanya, ada baiknya
mempertimbangkan apakah A dan B seharusnya berhubung. dalam contoh penting yang dia
berikan, dia menemukan 25 artikel yang menyatakan hal itu

halaman 149

Minyak ikan menyebabkan perubahan darah, dan 34 artikel menunjukkan bagaimana


darah yang sama perubahan akan meringankan masalah penyakit reynaud, tetapi tidak ada artikel
yang membahas minyak ikan dan penyakit reynaud. dan, memang, eksperimen selanjutnya
menunjukkan bahwa minyak ikan tampaknya berguna untuk mengobati penyakit reynaud.
demikian pula, ia menemukan bahwa ada banyak literatur tentang migrain dan epilepsi dan
tentang kekurangan epilepsi dan magnesium, tetapi tidak ada makalah tentang diet magnesium
dan migrain. setelah publikasi swanson, beberapa makalah muncul bersama bukti bahwa
magnesium meredakan migrain. terlepas dari contoh-contoh ini, itu ada terbukti sulit menindak
lanjuti pekerjaan ini. baik swanson maupun pengikutnya tidak dapat secara mekanis menemukan
contoh lain semacam ini. apakah pencarian berdasarkan penggunaan juga penting di
perpustakaan digital? secara digital, jauh lebih mudah melacak penggunaan berbagai item.
sampai sekarang, tidak ada sistem yang mengatakan, “tunjukkan pada saya hal-hal yang disukai
banyak orang,” atau sistem yang mengatakan, “tampilkan hal-hal yang dilupakan orang lain.
”sistem seperti ini disebut komunitas informasi. idenya di sini adalah bahwa anda dapat
memodelkan pencarian yang anda inginkan lakukan dengan melihat apa yang telah dilakukan
orang lain. ini adalah logika dari "apa pun joe merekomendasikan, saya akan suka, ”dilakukan
secara matematis dan dengan sejumlah besar orang. contoh awal adalah "rekomendasi video"
dari will hill dan mark rosenstein di Bellcore (Hill et al., 1995). mereka membuat alamat email
yang ditanyakan orang-orang untuk menilai film dari 1 hingga 10. mereka mengirimkan daftar
500 film; luar biasa, rata-rata orang yang mengembalikan daftar ini memberi peringkat sekitar
200 film. mereka luka dengan database sekitar 25.000 peringkat. ketika orang baru memasuki
peringkat, database dicari untuk menemukan 10 orang dengan kesepakatan terdekat. orang baru
ini kemudian dapat dimodelkan sebagai kombinasi linear dari 10 terbaik orang yang cocok.
dengan cara pemodelan orang ini, sistem bisa kemudian menyarankan film yang diperkirakan
model yang diinginkan pengguna, tetapi pengguna tersebut belum dinilai (dan mungkin belum
pernah melihat). tes menunjukkan bahwa ini adalah cara yang sangat efektif untuk
merekomendasikan film. tabel 5.6 menunjukkan metode yang berbeda untuk menyarankan apa
kaset video yang anda mungkin mau sewa. koefisien korelasi adalah antara peringkat aktual dan
peringkat diprediksi dengan metode yang diberikan. pekerjaan serupa telah dilakukan untuk
audio (cd musik populer) oleh patti maes dan kelompoknya di mit media lab (Shardanand and
Maes, 1995).

gambar 5.6
halaman 151

Apa yang harus pustakawan di perpustakaan digital lakukan untuk representasi


pengetahuan? bab ini telah meninjau beberapa kemungkinan. empat pilihan pertama ditawarkan
adalah manual. tiga dari bentuk organisasi pengetahuan ini biasanya dibuat oleh ahli berbayar:
judul katalog perpustakaan, thesaurus, dan bahasa buatan. membuat katalog membutuhkan
pekerjaan manual yang paling sedikit, sementara penggunaan thesaurus atau buatan bahasa
membutuhkan lebih banyak pekerjaan sebagai imbalan untuk representasi yang lebih detail.
karena bahkan katalog manual cukup mahal di $ 17 per buku (wilhoit, 1994), itu tidak mungkin
digunakan untuk sebagian besar dokumen web kecil. hypertext adalah sebuah metode manual
yang menyebarkan pekerjaan di sekitar banyak sukarelawan yang tidak dibayar, dan dengan
demikian lebih praktis sementara kurang dapat diandalkan. kemungkinan mekanis tambahan
melibatkan Model Vektor, sejarah pengambilan, dan penilaian komunitas. ini semua tampaknya
berfungsi, dan Model Vektor banyak digunakan saat ini. namun sejarah dan teknik komunitas
bergantung pada cukup banyak orang yang melihat setiap item untuk memperoleh manfaat
penilaian, yang mungkin tidak terjadi. dibandingkan dengan semua metode ini untuk mengatur
informasi, sepertinya.
Kemungkinan bahwa pencarian teks akan menjadi Metode utama mengakses Materi
dalam digital perpustakaan. pencarian teks, bagaimanapun, bekerja paling baik dengan item
dengan khususnya definisi kata yang tepat, seperti nama penulis yang tidak biasa. jika kita ingin
mencari dengan konsep atau menjelajah dalam bidang subjek umum, mungkin ada tempat untuk
klasifikasi dan representasi konseptual. mereka juga dapat membantu koleksi dalam berbagai
bahasa. penelitian diperlukan pada cara yang paling efektif menggunakan bahasa representasi
dan pada aplikasi mereka ke perpustakaan digital. riset juga diperlukan tentang cara-cara
menggabungkan informasi pada genre (misalnya, berfungsi untuk anak-anak) atau kualitas
(misalnya, perwasitan) dengan membuat katalog. yang terbesar masalah teknis adalah
memperluas salah satu metode pencarian otomatis ke suara dan gambar; seperti yang telah kita
lihat, sebagian dari ini dilakukan, tetapi selektivitasnya masih primitif dibandingkan dengan
pencarian teks. idealnya, kita akan dapat menggabungkan informasi yang berasal dari klasifikasi,
dari tautan hypertext, dari pencarian teks dan gambar, dan dari pengguna. kita gunakan semua
sumber ini di perpustakaan hari ini, meskipun secara informal, dan kami ingin terus
menggunakan mereka di masa depan yang lebih dimekanisasi.

Anda mungkin juga menyukai