Upaya baru-baru ini untuk menangani halaman web menjadi lebih sistematis, upaya
untuk mendorong pembuat atau pengelola laman web, untuk menyediakan tambahan informasi
tentang halaman web mereka dan informasi di dalamnya. ini sebagian adalah mengatasi
ketidakmampuan mesin telusur untuk menangani angka. kata-kata cukup tepat dibandingkan
dengan angka. terlepas dari semua diskusi sebelumnya tentang disambiguasi, kami memiliki
banyak kata seperti badak dan nama-nama seperti ayckbourn yang tidak mungkin disalah
pahami. untuk angka, semuanya jauh lebih buruk. ya, 2003 mungkin tanggal, tetapi jika anda
menemukan 75 dalam dokumen anda tidak tahu apakah itu nomor halaman, suhu, interval waktu,
atau apa.
gambar
<temperature>75</temperature>
or
<time-interval><minutes>75</minutes></time-interval>
or
<price><euro>75</euro></price>
halaman 144
Untuk memperjelas apa artinya 75 ini. perhatikan bahwa xml menggunakan bentuk yang
sama notasi braket sebagai sgml. karena XML adalah Sintaks, pengetahuan untuk menggunakan
"suhu," "temp," "derajat," atau "derajat-farenheit" sebagai tag di dalamnya kurung harus berasal
dari tempat lain. jadi untuk mencapai visi besar, di mana program bertindak untuk dibaca
pengguna halaman web dan membuat kesimpulan dari data mereka, kami membutuhkan lebih
dari ide penandaan data, di samping itu, beberapa kesepakatan tag yang akan digunakan. ini telah
dikenal sebagai semantic web dan merupakan salah satunya dari kata-kata kunci dari awal abad
dua puluh satu. semantic web adalah sebuah gabungkan area basis data dengan web, sehingga
kita dapat memiliki data skema dan file data yang disimpan di halaman web dan diakses oleh
program. dimana semantic web parts company dengan database tradisional ada di seluruh dunia.
secara tradisional, database adalah barang yang terisolasi, dan masing-masing adalah ditafsirkan
oleh pertanyaan dan perangkat lunak khusus hanya untuk database itu. semantik web
dimaksudkan untuk umum, sehingga setiap orang dapat menulis yang di halaman semantik web
dan bekerja dengan mereka. visi semantic web sangat dramatis. pengguna akan memiliki
preferensi mereka untuk melihat kamar hotel atau penerbangan, mengakses basis data secara
langsung, mengambil opsi, dan mengambil keputusan. agar ini berfungsi, kita perlu lebih dari
sekadar visi teknis. kita memerlukan tingkat kerjasama ekonomi dan teknis yang mungkin sulit
didapat.
sekali lagi, "kosakata yang terkontrol" menunjukkan ontologi, memberikan definisi yang tepat
dari barang-barang aktual yang akan digunakan. dengan demikian, program seperti itu mungkin
lebih menekankan pada “tan”
halaman 145
Dari "krem" sebagai warna. belum jelas bagaimana ontologi ini akan terjadi dibuat atau
didefinisikan: banyak orang ingin membuat keputusan, sedikit memahami insentif untuk
menggunakannya. jika pengguna tidak bekerja sama, program orang lain tidak akan tahu apa
yang harus dilakukan membuat halaman web mereka. jika program anda untuk memilih jaket
harus berinteraksi dengan penjual pakaian misalnya, itu harus mengerti semua properti dari basis
data tersirat di halaman web. jadi, untuk menerapkan empat kami persyaratan untuk sukses
semantic web ke toko yang menjual jaket, pertimbangkan pertanyaan-pertanyaan berikut:
1. informasi apa yang datang dengan masing-masing jaket? ini adalah skema data,
menginformasikan program anda bahwa item termasuk harga, gaya, ukuran, warna, berat, dan
seterusnya. skema mungkin memiliki beberapa level; misalnya, mungkin ada menjadi kategori
"kain" dibagi menjadi "lapisan" dan "shell."
2. bagaimana informasi yang terkait dengan item? ini adalah definisi dari
elemen, sehingga kami mencari tag seperti <color> atau <price>.
3. apa nama yang digunakan untuk properti data yang berbeda? sebagai contoh, harga mungkin
ditentukan dalam dolar; kain dan warna mungkin dipilih sebuah daftar; tapi ontologi macam apa
yang akan menutupi semua gaya jaket seseorang mungkin ingin memasukkan katalog?
terhubung ke pilihan warna, atau anda bisa mendapatkan kisaran warna yang sama apakah anda
memesan lapisan wol atau lapisan kapas? apakah orang akan mencoba melakukan pelabelan
seperti itu dengan baik? sejarah metadata pada web tidak bagus; banyak situs menggunakan tag
“meta” untuk mencoba menipu mesin telusur. akankah orang setuju tentang cara mereka
melakukan pelabelan ini? itu tidak mudah untuk menentukan skema data dan menentukan bidang
dengan cara yang akan menyederhanakan jalan orang lain akan dapat mengaksesnya. secara
historis, hanya skema yang sangat sederhana (seperti format http asli) kemungkinan akan cepat
dijemput oleh banyak orang pengguna. skema kompleks kurang diterima secara umum; lihat
fgdc (federal komite data geografis) standar metadata untuk contoh.
lebih kompleks organisasi data, semakin sedikit orang yang menggunakannya dan semakin kecil
kemungkinannya bahwa dua orang yang berbeda yang melihat potongan informasi yang sama
akan menjelaskannya dengan cara yang sama. untuk mulai mengatasi kerumitan mendefinisikan
data dalam xml, perhatikan bahwa xml harus digunakan bersama dengan definisi jenis dokumen,
yang disebut dtd. dtd menggambarkan skema data dari dokumen yang dienkode-xml: legal
komponen dan label yang bisa dimasukkan. misalnya, anda mungkin berpikir demikian satu
tahun bisa ditentukan sebagai terbuat dari 4 digit. itu akan langsung, tetapi apa yang anda
temukan dalam dokumen nyata adalah waktu yang dinyatakan sebagai “ca. 1920, "" sebelumnya
1910, "" selama 1930-an, "atau bahkan" dua tahun setelah pearl harbor.
gambar 5.4
halaman 147
Anda mungkin merasa bahwa sulit untuk melihat bagaimana formalitas ini sepadan
dengan kesulitan itu. terkadang representasi pengetahuan buatan tampaknya menjadi cara
mengatakan hal-hal yang jelas dengan cara yang tidak jelas. bahkan struktur yang ditunjukkan
pada gambar 5.4 masih sederhana dalam hal xml. itu benar tidak mengeksploitasi kekuatan
hubungan bernama. hubungan khusus bisa, pada prinsipnya, membantu dalam memahami
perbedaan antara frasa seperti: makanan rendah lemak (makanan yang terbuat dari bahan rendah
lemak) makanan anjing (makanan untuk diberikan kepada anjing) perbedaan antara frasa dapat
menjadi sangat rumit. rosario dan hearst (2001) membedakan spesialis sakit kepala, pasien sakit
kepala, interval sakit kepala, sakit kepala, bantuan sakit kepala, dan obat sakit kepala sebagai
frase nomina dengan berbeda makna. memang benar, tetapi menjadi sulit untuk benar-benar
menetapkan yang benar memberi label kepada mereka dan memproses dokumen dalam jumlah
besar. semuanya menjadi seimbang lebih kompleks ketika data numerik terlibat, dan interval
sakit kepala sebagai angka mungkin datang dalam beberapa menit dari minggu ke minggu.
bahkan orang-orang menolaknya beberapa proses yang terlibat.
halaman 148
Apakah akan ada mesin pencari gabungan teks-data yang menggunakan xml? ya, itu
industri yang bergerak untuk memasok ini. dalam sistem seperti itu, orang akan bisa
mengajukan jenis-jenis pertanyaan yang sulit di mesin pencarian web, seperti “judul
termasuk anjing kata dan tanggal publikasi setelah 2001. "beberapa pencarian online
mesin (mis., dialog) telah mendukung kueri seperti ini selama bertahun-tahun, tetapi sebagian
besar web basis data tidak. Vianu (2000) memberikan diskusi yang baik tentang teori XML
Database bagi mereka yang mencari detail teknis lebih lanjut. Shah dkk. (2002) telah melihat
bagaimana informasi retrieval akan berfungsi di lingkungan semantic web. mereka
membayangkan bukan hanya pengambilan dokumen hari ini, atau pengambilan fakta diaktifkan
oleh xml, tetapi logika deduktif untuk memungkinkan agen menggabungkan informasi yang
diambil dari dokumen berbeda. mereka berharap untuk formal ontologi untuk membakukan
kosakata dan pemrosesan bahasa alami untuk mengekstraksi unit informasi spesifik dari teks
biasa. sekarang dalam karya adalah rencana untuk layanan data mining yang luas berkeliling web
mencari kombinasi teks dan data untuk mengekstrak penting dan informasi menarik. misalnya,
Cannataro (2003) dijelaskan "Grid Pengetahuan," sebuah desain untuk penemuan pengetahuan
terdistribusi, di mana banyak komputer akan melakukan penambangan data secara paralel. semua
struktur ini menderita masalah umum yang harus mereka perdagangkan kekhususan dan
kekuatan untuk umum dan kemudahan penggunaan. saat seseorang mulai menegakkan kosakata
standar, dan pengkodean fakta dalam hubungan standar, itu menjadi lebih keras dan lebih keras
untuk memasukkan materi ke dalam sistem (atau untuk mengkategorikan apa yang sudah ada
sana). ketika seseorang menuntut hubungan yang lebih dan lebih spesifik, itu menjadi kurang dan
kecil kemungkinan bahwa seseorang akan menemukan kecocokan untuk relasi tertentu. dan
dengan demikian semakin banyak pekerjaan yang anda masukkan ke dalam pengkategorian,
ironisnya, semakin sedikit yang anda temukan sebagai hasilnya.
5.8 tautan yang diperoleh pengguna secara historis, tautan khusus yang disediakan oleh
pengguna sangat penting dalam penggunaannya perpustakaan; mereka datang dalam bentuk
referensi literatur. ini adalah dasar dari pengindeksan kutipan. selama beberapa tahun, indeks
kutipan sains (dari institut untuk informasi ilmiah, di philadelphia) telah mengindeks makalah
berdasarkan yang lain makalah yang mereka rujuk. sebagai alternatif untuk pengindeksan
berbasis kata kunci, ini bisa sering kali muncul dokumen yang sangat berbeda. di web, itu sama
mungkin untuk lacak melalui tautan hypertext ke halaman tertentu. don swanson telah
melakukan beberapa karya yang sangat provokatif pada hasil mempelajari istilah dan jaringan
kutipan (swanson, 1987, 1991, 1997, 2001). dia berhipotesis bahwa jika topik a dan topik b tidak
dihubungkan oleh kutipan, tetapi topik c sangat terhubung dengan keduanya, ada baiknya
mempertimbangkan apakah A dan B seharusnya berhubung. dalam contoh penting yang dia
berikan, dia menemukan 25 artikel yang menyatakan hal itu
halaman 149
gambar 5.6
halaman 151