Anda di halaman 1dari 15

Machine Translated by Google

Media Bertemu Web Semantik – Bagaimana BBC


Menggunakan DBpedia dan Data Tertaut untuk Membuatnya
Koneksi

Georgi Kobilarov2, Tom Scott1, Yves Raimond1, Silver Oliver1,


Chris Sizemore1, Michael Smethurst1, Christian Bizer2, dan Robert Lee3

1
British Broadcasting Corporation, London, Inggris
nama depan.nama belakang@bbc.co.uk
2
Freie Universit¨at Berlin, Berlin, Jerman firstname.lastname@fu-
berlin.de Rattle Research, Sheffield, Inggris
3

robl@rattlecentral.com

Abstrak. Dalam makalah ini, kami menjelaskan bagaimana BBC berupaya mengintegrasikan data dan
menghubungkan dokumen di seluruh domain BBC dengan menggunakan teknologi Web Semantik, khususnya
Linked Data, MusicBrainz, dan DBpedia.
Kami meliput pekerjaan Program BBC dan Musik BBC yang membangun situs Data Tertaut untuk semua merek
terkait musik dan program, dan kami menjelaskan proyek yang ada, pengembangan yang sedang berlangsung,
dan penelitian lebih lanjut yang kami lakukan dalam kolaborasi bersama antara BBC, Freie Universit¨at Berlin dan
Rattle Research untuk menggunakan DBpedia sebagai kosakata terkontrol dan tulang punggung semantik untuk
seluruh BBC.

1. Perkenalan

Proyek Linking Open Data1 menjadi salah satu contoh utama keberhasilan adopsi teknologi Web
Semantik berbasis komunitas pada tahun lalu. Hal ini bertujuan untuk mengembangkan praktik
terbaik untuk membuka “kebun data” di Web, menghubungkan kumpulan data terbuka di Web
dan memungkinkan pengembang web untuk memanfaatkan sumber informasi yang kaya tersebut.
Namun data yang tersedia dalam proses tersebut, praktik dan teknologi yang dikembangkan, tidak
hanya berguna untuk data web terbuka, namun juga memberikan manfaat bagi pengguna akhir
dan perusahaan pada umumnya.
Dalam makalah ini, kami menjelaskan bagaimana teknologi Linked Data [1] [2] diterapkan di
BBC, salah satu lembaga penyiaran terbesar di dunia, dan bagaimana DBpedia [3], sering
dianggap sebagai pusat penghubung dari proyek Linking Open Data, dan Mu-sicBrainz digunakan
dalam proses tersebut sebagai kosakata yang saling menghubungkan dan penyedia data. Makalah
ini disusun sebagai berikut: Pertama, kami menggambarkan status quo sebelumnya dari berbagai
sumber data dan sistem kategorisasi di BBC dan menjelaskan permasalahan dan persyaratan
untuk transisi dari sumber data yang tidak terhubung ke ekosistem yang lebih saling terkait. data.

1
http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/ LinkingOpenData

L.Aroyo dkk. (Eds.): ESWC 2009, LNCS 5554, hlm. 723–737, 2009. c Springer-
Verlag Berlin Heidelberg 2009
Machine Translated by Google

724 G. Kobilarov dkk.

Kami kemudian menjelaskan bagaimana kami mempublikasikan data program, bagaimana kami
menghubungkan konsep dengan DBpedia dan melalui dokumen tersebut satu sama lain dan bagaimana
hal itu terwujud dalam manfaat nyata bagi pengguna situs utama BBC di www.bbc.co.uk.

1.1 Definisi Masalah

BBC menerbitkan sejumlah besar konten online – baik teks maupun audio & video. Secara historis, hal
ini sebagian besar terfokus pada mendukung merek penyiaran dan serangkaian situs mikro khusus
domain (misalnya makanan, berkebun, dll.) dengan mengesampingkan integrasi yang lebih luas dengan
bbc.co.uk lainnya, apalagi web lainnya; meskipun dengan beberapa pengecualian seperti berita online.
Artinya, fokusnya adalah pada penyediaan situs mikro yang terpisah, sebagian besar berdiri sendiri,
yang dirancang untuk diakses melalui HTML di desktop.

Artinya, BBC mampu mendukung kasus penggunaan utama dalam konteks masing-masing situs
mikro, namun tidak mendukung kasus penggunaan yang menjangkau merek atau domain program.
Misalnya, kami dapat memberi tahu Anda siapa yang menghadirkan Top Gear, namun tidak dapat
memberi tahu Anda apa lagi yang dihadirkan oleh orang-orang tersebut. Dengan mengembangkan situs
mikro mandiri, BBC telah menghasilkan beberapa layanan yang sangat populer namun juga gagal
mencapai potensi penuhnya karena belum mampu menggabungkan seluruh sumber dayanya. Dengan
gagal menghubungkan konten (baik pada tingkat data dan pengalaman pengguna), konten yang
dipublikasikan tidak akan pernah bisa lebih besar dari jumlah bagian-bagiannya. Sebagai pengguna,
sangat sulit untuk menemukan semua yang dipublikasikan BBC tentang subjek tertentu, dan Anda juga
tidak dapat dengan mudah menavigasi domain BBC dengan mengikuti rangkaian semantik tertentu.
Misalnya, Anda belum dapat menavigasi dari halaman tentang seorang musisi ke halaman yang berisi
semua program yang pernah menampilkan artis tersebut.

Selain itu, meskipun BBC Backstage2 telah membuat kemajuan besar dalam menyediakan data BBC
untuk pengembang pihak ketiga, kami menyadari bahwa masih banyak lagi yang dapat dicapai jika
representasi mesin tersedia dengan cara yang sama seperti tampilan HTML.

Seperti banyak penerbit besar konten Web, BBC telah membagi layanannya berdasarkan domain,
misalnya makanan, musik, berita, dll. Setiap layanan dikelola oleh tim yang berbeda; begitu pula situs
pendukung program, yang secara historis ditugaskan secara independen satu sama lain. Hal ini
mempersulit koordinasi keterkaitan antara layanan dan lokasi program.

Pengembangan bbc.co.uk/music/[beta] berupaya untuk mengatasi keterkaitan layanan seputar


domain musik - musik yang diputar di program, acara, atau sesi. Demikian pula bbc.co.uk/programmes
bertujuan untuk menyediakan layanan dukungan program terpusat yang dapat digunakan oleh seluruh
bisnis.
Namun, baik musik maupun program tidak menyelesaikan masalah penautan lintas domain, juga
tidak mengatasi masalah disambiguasi antara beberapa kosakata yang dikontrol - fakta bahwa Madonna
adalah seorang artis (di MusicBrainz), dan seorang aktor dan seseorang (di Wikipedia). Dan mungkin
yang lebih signifikan juga tidak membahas bidang-bidang lain yang menjadi perhatian BBC - berita,
makanan, buku,

2
http://backstage.bbc.co.uk
Machine Translated by Google

Media Bertemu Web Semantik 725

olahraga, sejarah alam, dll. Untuk mengatasi permasalahan ini, BBC, Freie Universit¨at Berlin dan Rattle
Research sedang menyelidiki penggunaan DBpedia untuk menyediakan layanan kosa kata dan
kesetaraan yang “terkontrol” secara umum, yang pada gilirannya digunakan untuk menambahkan “lencana
topik” ke halaman web lama yang sudah ada.

1.2 Tujuan

Seperti yang telah kita lihat di bagian sebelumnya, ada sejumlah besar sumber data di BBC yang tidak
terhubung atau hanya saling terhubung untuk kasus penggunaan tertentu. Skenario ini biasa terjadi di
perusahaan-perusahaan besar. Meskipun - secara teori - ketika merancang infrastruktur data, kita harus
bisa merancang sistem yang menghubungkan semua domain – namun kenyataannya hampir selalu
berbeda. Pertumbuhan organisasi dan sistem pendukung yang organik mengarah pada ekosistem yang
beragam dan mencoba memulai lagi dari awal jelas merupakan pilihan yang tidak dapat dipertahankan.

Perusahaan sebesar BBC telah menginvestasikan sumber daya yang signifikan, selama beberapa
tahun, ke dalam penawaran web mereka yang ada dan mendesain ulang serta menerapkan kembali
semuanya sekaligus adalah hal yang mustahil tidak hanya dari sudut pandang penerapan, namun juga
dari sudut pandang organisasi. Oleh karena itu, perlu diambil suatu pendekatan yang menghasilkan
koneksi dan keterkaitan yang lebih baik pada sistem yang ada – memberikan transisi yang lancar dan
mengurangi dampak pada sistem yang ada – dan pada saat yang sama, jika memungkinkan,
mengembangkan layanan baru untuk memaksimalkan keterkaitan domain. Web Semantik, khususnya
teknologi Data Tertaut, dapat menawarkan transisi yang mulus.

Tujuan kami ada empat:

1. untuk mengembangkan layanan baru yang mendukung branding stasiun Radio, saluran TV, dan
program kami (bbc.co.uk/programmes) sekaligus memastikan bahwa pengguna dan pengembang
pihak ketiga dapat menelusuri grafik data BBC meskipun ke sumber data lain di tempat lain di cloud
Data Tertaut – mengikuti tautan yang terkait secara kontekstual di seluruh konten BBC atau konten
di tempat lain di web.

2. untuk mengembangkan penawaran musik baru (bbc.co.uk/music/beta) yang didasarkan pada


standar web terbuka yang ada dan sepenuhnya terintegrasi dengan layanan dukungan program
yang sedang
berkembang. 3. untuk menyesuaikan elemen navigasi sederhana (yaitu Lencana Topik dan
ekstraksi istilah) pada halaman lama yang sudah ada, dan halaman baru yang dibangun dengan
sistem lama untuk mendukung navigasi kontekstual dan semantik.
4. menyediakan seperangkat pengenal skala web yang umum untuk membantu mengklasifikasikan
semua konten online BBC (dan URL eksternal) dan untuk membantu menciptakan kesetaraan antara
beberapa kosakata.

Dalam memenuhi tujuan ini, kami berharap bbc.co.uk menjadi tempat yang lebih koheren dan
bermanfaat dengan menyediakan tautan kontekstual dan semantik yang menghubungkan konten di
berbagai domain dan menyediakan jalur navigasi yang bermakna bagi pengguna kami.
Jadi bagian utama dari makalah ini pertama-tama akan menjelaskan bagaimana Program dan Musik
BBC dikembangkan untuk mempublikasikan Data Tertaut, baik untuk penggunaan internal maupun internal.
Machine Translated by Google

726 G. Kobilarov dkk.

untuk pengembang eksternal. Kami kemudian akan menjelaskan sistem warisan, khususnya sistem
kategorisasi konten yang disebut CIS dan bagaimana kami menghubungkan konsep-konsep dari CIS
dengan DBpedia sebagai kosakata terkontrol untuk mengintegrasikan berbagai domain BBC. Lalu kita
beralih ke dokumen-dokumen, yang masih menjadi bagian utama dari konten yang diterbitkan oleh BBC,
dan bagaimana kita menghubungkannya melalui penggunaan DBpedia sebagai kosakata untuk konsep-
konsep. Dan yang terakhir, kami akan menyajikan bagaimana pengguna kami mendapatkan manfaat
dari perjalanan pengguna yang lebih baik dan koheren di www.bbc.co.uk.

2 Menerbitkan dan Menghubungkan Program dan Musik BBC

Pendekatan sedikit demi sedikit terhadap dukungan program sebelumnya memberikan peluang untuk
mengembangkan layanan baru bbc.co.uk/programmes (yang diluncurkan pada musim panas 2007)
dengan tujuan menyediakan satu URI per program - untuk setiap program yang disiarkan BBC -
memungkinkan tim lain di BBC untuk memasukkan halaman-halaman tersebut ke dalam situs pendukung
program, Saluran TV, dan situs Stasiun Radio yang baru dan yang sudah ada.

Demikian pula terdapat peluang untuk mengembangkan kembali situs musik dengan prinsip yang
sama - namun dalam kasus ini URI untuk setiap artis (dan pada akhirnya URI untuk setiap lagu) yang
dimainkan oleh BBC. Namun, meskipun ada kesamaan antara program dan musik, terdapat juga
perbedaan dalam pendekatan pengembangan yang perlu diperhatikan.

Program-program BBC didukung dengan basis data milik sendiri – PIPs – yang berupaya memuat
catatan definitif semua meta-data program BBC yang dilihat publik. Representasi publik atas data ini,
sebagian, diungkapkan di bbc.co.uk/iplayer dan juga di bbc.co.uk/programme. Representasi selanjutnya
diterbitkan sesuai dengan ontologi program3.

Berbeda dengan program BBC, BBC tidak “memiliki” domain musik dan oleh karena itu penting bagi
BBC untuk mengadopsi pengenal web yang ada untuk memudahkan upaya pengembangan baik bagi
insinyur perangkat lunak BBC maupun insinyur pihak ketiga.
MusicBrainz, layanan metadata musik yang dikelola komunitas, menyediakan pengenal web tersebut.

Namun, artis juga “ada” di domain lain – misalnya Madonna adalah seorang penyanyi dan aktris
(karenanya juga merupakan bagian dari domain film) dan juga seseorang.
Oleh karena itu BBC memerlukan mekanisme untuk menciptakan kesetaraan antara dua atau lebih
pengidentifikasi dari domain berbeda.
Baik Musik maupun Program BBC menyediakan pengidentifikasi web yang persisten dan serangkaian
representasi yang sesuai untuk program dan artis musik BBC, sehingga membawa data BBC ke Web
Semantik. Layanan ini dirancang sesuai dengan prinsip Data Tertaut yang dikemukakan dalam [1]:

– Pengidentifikasi web digunakan untuk menunjukkan sesuatu: entitas dalam lingkup


Program Ontologi (merek, serial, episode, versi, layanan, dan siaran) dan Ontologi Musik [4] (artis
musik);
– Pengidentifikasi web ini memiliki banyak representasi, termasuk:
3
http://purl.org/ontology/po/
Machine Translated by Google

Media Bertemu Web Semantik 727

– Representasi XHTML, dirancang untuk interaksi manusia; – Representasi RDF,


memaparkan data terstruktur BBC; – Representasi ini menyimpan tautan ke
pengidentifikasi web lebih lanjut, memungkinkan untuk menemukan lebih banyak data terstruktur.
Misalnya, representasi artis di BBC Music memiliki tautan burung hantu:sameAs ke artis terkait di
DBpedia.

Kami juga yakin bahwa nilai situs web program bukan terletak pada metadata implisit model domain,
melainkan pada cara model domain ini tumpang tindih dan bersinggungan dengan domain lain. Seperti
biasa, tautan lebih penting daripada simpul karena di situlah konteksnya berada:

program:segmen <fitur> musik:trek, program:segmen <fitur>


makanan:resep, dll.

Dengan cara ini kita dapat merangkai “perjalanan pengguna” baru ke dalam dan ke luar /programmes, ke
dalam dan ke luar bbc.co.uk. Namun untuk mencapai hal tersebut, kami perlu menerapkan lebih banyak
konten dan sistem lama kami.

3 Tautan Silang Konten Warisan dan Sistem Warisan


Kita telah melihat bagaimana domain program BBC berhasil memodelkan hubungan program yang
spesifik. Meskipun terdapat kemajuan, hal ini mewakili jumlah konten BBC yang relatif kecil dan diinginkan
untuk ditautkan ke domain BBC selanjutnya. Salah satu cara untuk melakukan hal ini adalah melalui
hubungan antara program dan orang, tempat dan subyek. Data ini dibuat dengan sistem kategorisasi
otomatis lama yang disebut CIS.

CIS memiliki hierarki istilah dalam lima kelas utama tingkat atas: nama diri, subjek, merek, periode
waktu, dan tempat. Sistem ini awalnya digunakan untuk membuat anotasi berita regional dalam sistem
manajemen konten. Ini berarti bahwa kosakatanya terutama terfokus pada konten regional Inggris. Ini
termasuk banyak band lokal, orang-orang dan acara. Selain itu, intinya adalah kosakata subjek umum
yang lebih berguna dan daftar lokasi yang akan berguna untuk anotasi program BBC. Berdasarkan bagian
kosa katanya yang lebih berguna (sekitar 40% dari total konsep) dan keahlian yang sudah ada di BBC, hal
ini dipilih sebagai solusi awal untuk membuat anotasi program BBC.

CIS diterapkan sebagai sistem otomatis untuk mengkategorikan program berdasarkan deskripsi
tekstualnya. Misalnya, sinopsis program ”pandangan ke depan terhadap Olimpiade Beijing, termasuk
pratinjau harapan tinju Inggris” akan dikategorikan dengan ”Beijing” (tempat), ”Inggris” dan ”Tinju” (mata
pelajaran). Istilah “Beijing” kemudian dapat menjadi penghubung antara program ini dengan program lain
tentang Beijing. Selain itu, ini dapat digunakan untuk menghubungkan ke berita BBC (jika berita
menggunakan pengenal serupa) yang berkaitan dengan Beijing. Pendekatan ini dapat membantu
menghubungkan berbagai layanan BBC yang berbeda, sekaligus tetap mengembangkannya secara
independen. Kuncinya adalah memastikan adanya pemetaan antara berbagai kosakata yang digunakan.

Namun, meskipun pendekatan ini menyoroti perlunya kosakata yang sama, yang digunakan di
berbagai layanan BBC dan bertindak sebagai serangkaian penghubung
Machine Translated by Google

728 G. Kobilarov dkk.

di antara keduanya, sistem kategorisasi tunggal sulit untuk dipertahankan, dan sulit untuk mencakup setiap
entitas yang mungkin menjadi perhatian. Selain itu, tidak ada hubungan yang berkaitan dengan istilah-
istilah yang tersedia dalam CIS. Misalnya, tidak mungkin menggunakan kerangka kerja berbasis CIS untuk
mengakses hubungan antara Beijing dan Olimpiade Beijing. Untuk memberikan pengalaman pengguna
yang memuaskan, kami memerlukan hubungan yang lebih kaya antara istilah-istilah yang berbeda ini.
Selain itu, istilah-istilah CIS hanya akan menjadi pengenal internal sehingga tidak akan pernah membantu
mengotomatiskan penautan sumber daya BBC ke data non-BBC.

Selain itu, objek yang diidentifikasi dengan /program dan /musik juga dapat ditemukan dalam domain
lain. Idealnya kita memerlukan mekanisme yang dapat digunakan untuk memetakan suku-suku yang
ekuivalen.
Jadi kami memutuskan untuk mencari kumpulan pengenal web yang umum untuk BBC. Itu
Proyek DBpedia4, yang membawa informasi yang diambil dari Wikipedia ke Web Semantik, pada saat itu
telah berkembang menjadi pusat interlinking de-facto untuk proyek Linking Open Data, jadi merupakan
pilihan yang jelas untuk mengandalkan pengidentifikasi DBpedia dan dengan cara ini di pada saat yang
sama bergabung dengan Web Data Tertaut.
Dan meskipun DBpedia tidak hanya menyediakan URI Data Tertaut untuk berbagai konsep, namun juga
data terstruktur tentang konsep tersebut dan hubungannya, data tersebut dapat digunakan untuk
menggerakkan algoritma interlinking (semi-)otomatis, berfungsi sebagai sumber data yang akan digunakan
dan ditampilkan dalam aplikasi BBC, dan menyediakan hubungan yang kaya antara istilah-istilah yang kita
perlukan. Jadi DBpedia menjadi kosakata terkontrol untuk menghubungkan domain BBC kami seperti
Musik, Berita, Topik, dan Program seperti yang ditunjukkan pada Gambar 1. Meskipun menganggap
Wikipedia sebagai kosakata yang “terkontrol” masih bisa diperdebatkan karena adanya perubahan pada
URI artikel Wikipedia, Hepp et al . [5] perhatikan bahwa perubahan ini terjadi lebih jarang dari yang
diperkirakan, dan DBpedia dapat menyediakan mekanisme untuk menangkap perubahan tersebut melalui
resolusi pengalihan.

Domain BBC berisi konsep dan data terstruktur serta dokumen dan konten lainnya. Untuk mencapai
penautan konsep dan konten lintas domain, di bagian berikutnya kami akan menjelaskan upaya kami
untuk pertama-tama menghubungkan konsep dan kemudian konten tentang konsep dengan DBpedia.

4 Menghubungkan Konsep CIS ke DBpedia


Untuk menjembatani konten CIS kami dengan ekosistem yang berpusat pada DBpedia dengan cepat,
kami mengembangkan sistem yang secara otomatis menghubungkan konsep CIS dengan DBpedia. Pada
bagian berikut, kami akan menjelaskan pendekatan kami, memberikan gambaran umum tentang algoritma
yang telah kami terapkan dan memberikan evaluasi awal terhadap hasil interlinking.

4.1 Pendekatan Interlinking

CIS berisi 150.000 istilah secara keseluruhan, mencakup empat domain berbeda: merek BBC, lokasi,
orang, dan subjek umum. Setiap domain memiliki satu hierarki istilah yang mengkategorikan istilah-istilah
yang dinyatakan dalam SKOS [9].
4
http://dbpedia.org
Machine Translated by Google

Media Bertemu Web Semantik 729

Gambar 1. Menghubungkan Domain BBC

Untuk menghubungkan hanya taksonomi CIS itu sendiri yang dapat digunakan, karena
berbagai alasan tidak ada akses ke dokumen yang diberi tag istilah CIS. Jadi algoritme inter-
linking harus bekerja hanya dengan informasi yang kami peroleh dari CIS, termasuk informasi
label dan kategorisasi. Tantangan utamanya adalah menemukan kecocokan yang paling
mungkin berdasarkan pencarian label istilah CIS di DBpedia dan membedakan kecocokan
tersebut menggunakan informasi klasifikasi.
Masalah ini merupakan salah satu masalah yang terkenal dalam bidang penelitian
pencocokan ontologi [6] [7]. Namun, kami perlu mengembangkan solusi yang disesuaikan
dengan kasus penggunaan kami yang sangat spesifik, dengan mempertimbangkan sangat
terbatasnya informasi mengenai persyaratan CIS yang tersedia untuk implementasi
pencocokan, serta beberapa karakteristik spesifik DBpedia.
Ide inti dari pendekatan kami dapat digambarkan sebagai pengelompokan kesamaan
berdasarkan “konteks” konsep. Meskipun istilah “apel” itu sendiri bersifat ambigu, mengingat
konteks istilah “microsoft” dan “google”, arti “apel” yang merujuk pada Apple Inc. menjadi
jelas. Asumsi ini menjadi dasar keterkaitan CIS kami. Kami menggunakan informasi klasifikasi
yang tersedia di CIS untuk membangun kelompok kesamaan (konsep dalam kategori yang
sama atau kelas berbasis tanda kurung) yang membantu kami memperjelas arti istilah
tertentu. Di DBpedia, kita kemudian dapat menghitung metrik kesamaan untuk tupel makna
berdasarkan jarak node dalam grafik kategorisasi dan klasifikasi DBpedia.

Jadi algoritma yang kami kembangkan dibagi menjadi dua bagian: pencarian label
DBpedia dan disambiguasi hasil berbasis konteks. Oleh karena itu, pendekatan interlinking
otomatis secara keseluruhan mirip dengan yang dijelaskan dalam [8], namun berbeda dalam
cara identifikasi konteks dilakukan dan hasilnya diberi peringkat.

4.2 Pencarian Label DBpedia

Inti dari proses penautan adalah pencarian label berbobot [10]. DBpedia berisi 2,5 juta
konsep, dan sebagian besar string masukan dari CIS cocok dengan beberapa konsep:
Machine Translated by Google

730 G. Kobilarov dkk.

”shakespeare” cocok dengan lebih dari 50 sumber DBpedia. Untuk menemukan kecocokan
yang paling mungkin untuk istilah tertentu, sistem menggunakan pencarian label berbobot,
menggunakan tautan antar-artikel Wikipedia sebagai indikator bobot. PageRank bekerja
berdasarkan asumsi bahwa semakin penting suatu halaman web, semakin banyak hyperlink
di web yang mengarah ke halaman tersebut. Kami menemukan bahwa di Wikipedia, jumlah
pranala antar-artikel yang mengarah ke suatu artikel juga dapat dianggap sebagai indikator
relevansi artikel secara keseluruhan. Artikel Wikipedia tentang William Shakespeare memiliki
lebih dari 6000 tautan yang mengarah ke sana, sedangkan artikel tentang Nicholas
Shakespeare hanya memiliki 18 tautan. Untuk menangani sinonim dan singkatan (seperti
“UE” yang mengacu pada Uni Eropa) kami menyertakan pengalihan Wikipedia ke dalam
indeks , menghitung bobotnya sebagai tautan(redirect)*log2(berat(artikel)).
Pencarian DBpedia dibuat berdasarkan indeks Lucene khusus yang menggabungkan
metrik relevansi kami dengan peringkat berbasis kesamaan string Lucene, dan tersedia
sebagai layanan web5.

4.3 Disambiguasi Berbasis Konteks

Untuk membedakan kemungkinan kecocokan, kami mengidentifikasi konteks kesamaan istilah


CIS dengan mengelompokkan kecocokan dan menemukan konteks yang sesuai di DBpedia.
Kami menggunakan hierarki kategorisasi CIS dan teks tanda kurung sebagai cluster. Konsep
“Mary (1985 sitkom)” termasuk dalam kelompok “televisi” (kategori), “1985” dan “sitkom” (teks
dalam tanda kurung). Algoritme ini membuat cluster-cluster ini untuk semua istilah CIS dan
mengidentifikasi kategori, kelas, dan template DBpedia yang cocok untuk setiap cluster
berdasarkan beberapa kemungkinan kecocokan DBpedia.
Konteks yang teridentifikasi tersebut kemudian digunakan untuk membedakan kecocokan
setiap konsep CIS. Selain itu, kami menambahkan batasan berdasarkan domain CIS:
stemming digunakan untuk subjek, bukan untuk nama orang, lokasi harus menggunakan
templat koordinat geografis, dan untuk merek, templat yang paling relevan di DBpedia
diidentifikasi secara manual.
Dengan contoh sebelumnya “Mary (1985 sitkom)” dimasukkan ke dalam kelompok bersama
dengan sitkom dan acara televisi lainnya, kami dapat menolak hasil peringkat teratas
berdasarkan label “Mary (Holy Mother)” untuk istilah penelusuran “Mary” karena kelas DBpedia-
nya, tolak ”Something about Mary” dan ”Mary Tylor Moore Show” dan terima kecocokan
dbpedia:Mary_(1985_TV_series) berdasarkan kategori DBpedia ”serial televisi Amerika tahun
1980-an” (lihat gambar 2 dan 3).

4.4 Evaluasi

Tujuan dari pendekatan interlinking otomatis yang pertama ini adalah untuk hanya membuat
link dengan nilai keyakinan yang tinggi (yaitu mengurangi jumlah link positif palsu atau link
palsu) sambil menerima bahwa kita akan kehilangan banyak link yang berpotensi benar (yaitu
memiliki banyak link negatif palsu). Tabel 1 menunjukkan hasil keterkaitan kami.
Salah satu alasan mengapa kami hanya menghubungkan 20% - 30% kumpulan data
merek, lokasi, dan nama adalah karena banyak konsep yang tidak memiliki artikel Wikipedia
sendiri. Episode TV misalnya sering digabungkan menjadi satu daftar artikel, yang mana
5
http://lookup.dbpedia.org/api/search.asmx
Machine Translated by Google

Media Bertemu Web Semantik 731

Gambar 2. Identifikasi Konteks Gambar 3. Disambiguasi Berbasis Konteks

Tabel 1. Hasil Interlinking CIS / DBpedia

Total Presisi Tertaut (set pengujian) Penarikan kembali (set pengujian)


Merek 6.630 1.267 (19%) 86% 41%
Lokasi 55.943 11.316 (20%) 99% 77%
Nama 73.442 22.341 (30%) 92% 67%
Subjek 11.231 6.822 (61%) 92% 75%

tidak pantas digunakan sebagai URI untuk setiap episode. Dan banyak orang tidak melakukannya
ada di Wikipedia karena ketenarannya rendah. Kami secara manual membuat set pengujian 540
Tautan CIS-DBpedia untuk konsep penting setiap domain (100 merek, 150 lokasi, 130 nama, 160
subjek), untuk memeriksa ketepatan dan ingatan
algoritma kami. Meskipun kami telah memasukkan konsep CIS tanpa konsep DBpe-dia yang
sesuai ke dalam set pengujian untuk menguji positif palsu, persentasenya dalam
kumpulan pengujian tidak mewakili distribusi sebenarnya dalam kumpulan data utama. Kami
ingin juga dicatat bahwa pekerjaan ini telah dilakukan sebelum rilis DBpedia
3.2, yang menyediakan kumpulan data yang lebih bersih dan ontologi hierarki. Kita
yakin bahwa kita sekarang akan mampu mencapai lebih sedikit hasil negatif palsu,
tapi belum mengevaluasinya.

5 Menghubungkan Dokumen ke Konsep

Di bagian sebelumnya kami fokus pada bagaimana kami menerbitkan dan menghubungkannya
data dan konsep terstruktur yang ada. Sekarang kita beralih ke dokumen. BBC
telah mendapat banyak dokumen tekstual, seperti situs web editorial dan artikel berita.
Menghubungkan kosakata CIS dengan DBpedia membawa sebagian dari kosakata yang tersedia
dokumen ke dalam ekosistem data kami yang tertaut, namun masih banyak lagi. Di dalam
di bagian ini, kami menjelaskan bagaimana kami menggunakan sistem ekstraksi entitas bernama yang disebut Muddy
Boot untuk memproses artikel BBC News, mengenali entitas dalam artikel tersebut, dan
gunakan pengidentifikasi DBpedia untuk entitas tersebut untuk membawa BBC News ke dalam
gambar. Muddy Boots juga memberi kita kemampuan pemrosesan teks
memerlukan Alat Tautan Konten semi-otomatis kami, yang akan dijelaskan nanti.
Machine Translated by Google

732 G. Kobilarov dkk.

5.1 Pengakuan Entitas Bernama: Muddy Boots

Selama setahun terakhir, Named Entity Recognition (NER) menjadi salah satunya
fokus utama dari apa yang disebut startup dan perusahaan Web Semantik. Produk seperti itu
seperti OpenCalais6, Twine7, dan Zemanta8 yang dibangun di atas NER untuk mengekstraksi konsep
(kebanyakan orang, lokasi, dan perusahaan) dari masukan tekstual. OpenCalais
dan Zemanta menyediakan API untuk memungkinkan blogger dan bisnis menggunakan NER mereka
sistem. Namun sistem tersebut memang menggunakan pengidentifikasi entitasnya sendiri, jadi kami mencarinya
sebuah sistem yang benar-benar menggunakan kembali pengenal web yang ada, yaitu Wikipedia/DBpedia
URI. (OpenCalais dan Zemanta baru-baru ini mengumumkan untuk menautkan ID entitas mereka ke
URI DBpedia.)
BBC bekerja sama dengan Rattle Research untuk membuat sistem yang menggunakan DBpedia
URI sebagai kosakata terkontrol untuk mengidentifikasi entitas [11] [12] dalam arsip berita mereka,
disebut Sepatu Berlumpur. Sistem Muddy Boots mengurai isi cerita dari a
diberikan URI berita BBC dan kemudian menggunakan sistem NER yang dikombinasikan dengan
Yahoo Term Extraction API9 untuk mengekstrak entitas utama dari cerita. Ini
entitas hanyalah teks dan tidak memiliki makna semantik atau klasifikasi yang melekat padanya
mereka pada saat ini. Mereka dicocokkan dengan sumber daya yang mungkin ada di DBpedia menggunakan
algoritma logika fuzzy sederhana yang membandingkan judul sumber daya DBpedia dengan
entitas yang diekstraksi. Jika beberapa sumber daya DBpedia teridentifikasi,
sistem mengalokasikan masing-masing istilah ini ke istilah yang diekstraksi sebagai kemungkinan kecocokan yang valid.
Sistem mengikuti pengalihan DBpedia dan membedakan predikat
dan menyusun daftar kemungkinan sumber daya DBpedia untuk setiap istilah dan memberi peringkat pada masing-masing istilah

mengidentifikasi sumber daya DBpedia, menggunakan disambiguasi kontekstual. Untuk sebuah cerita
tentang 'Apple Inc', akan ada istilah seperti 'Steve Jobs', 'Iphone' dan 'Mac-book'. Dengan menggunakan
daftar lengkap istilah yang diambil dari cerita dan penerapannya
algoritma kesamaan di seluruh sumber daya yang diidentifikasi untuk menentukan peringkatnya
kemiripannya dengan dokumen yang hanya terdiri dari istilah-istilah yang diekstraksi, yaitu sistem
menggunakan sumber daya dengan peringkat tertinggi sebagai disambiguasi untuk istilah yang diekstraksi.
Hal ini memungkinkan Muddy Boots membuat pemetaan antara daftar yang diekstraksi
persyaratan untuk kemungkinan rekan-rekan mereka di DBpedia. Langkah terakhir adalah mengidentifikasi
sumber daya yang berhubungan dengan 'orang' dan 'perusahaan', dengan memeriksa
predikat untuk setiap sumber daya dan membuat algoritma penilaian yang memberikan poin
ke suatu kategorisasi (baik 'orang' atau 'perusahaan') berdasarkan predikat itu
hadir, seperti 'tanggal lahir' atau 'tempat lahir' seseorang. Kategorisasi
dengan skor tertinggi diberikan pada sumber daya dan 'kepercayaan' keseluruhan
metrik ditetapkan menggunakan algoritma berbobot yang menggabungkan hasil dari
metrik kesamaan, skor kategorisasi, dan ambiguitas istilah tertentu.
Prototipe Muddy Boots menghasilkan sistem yang menggunakan DBpedia sebagai a
kosakata terkontrol untuk mengidentifikasi dengan jelas aktor utama dalam sebuah karya
isi. Sistem telah dikembangkan lebih lanjut untuk memanfaatkan ontologi DBpedia baru dan hanya mencoba
untuk mengkategorikan sumber daya yang tidak memiliki klasifikasi

6
http://www.opencalais.com/
7
http://www.twine.com
8
http://www.zemanta.com
9
http://developer.yahoo.com/search/content/V1/termExtraction.html
Machine Translated by Google

Media Bertemu Web Semantik 733

dengan ini. Hal ini memungkinkan sistem untuk mengidentifikasi peningkatan jumlah entitas dalam
kategori yang lebih beragam. Sistem saat ini mendukung sistem rekomendasi sumber daya Alat Tautan
Konten, yang dijelaskan di bagian berikutnya, dan juga tersedia sebagai serangkaian layanan web
yang tersedia untuk umum (http://www.muddy.it).

5.2 Alat Tautan Konten

Betapapun bagusnya metode kategorisasi otomatis, intervensi editorial akan selalu diperlukan. Ini
berarti BBC memerlukan alat untuk menambah atau menghapus pengenal DBpedia dari URL BBC
mana pun. Konsep DBpedia dan URI terkait kemudian dapat disimpan secara terpusat agar tersedia
untuk layanan apa pun yang memerlukan URL BBC tentang konsep DBpedia.

Pengalaman sebelumnya dengan pemberian tag semi-otomatis telah mengajarkan kami bahwa
antarmuka pengguna alat anotasi apa pun sangat penting untuk pembuatan metadata berkualitas
tinggi. Alat ini juga perlu menyertakan saran otomatis berkualitas tinggi untuk membuat proses anotasi
semudah mungkin. Sistem Muddy Boots dipilih sebagai sumber saran otomatis berdasarkan dataset
DBpedia. Selain itu pengguna dapat mencari istilah yang belum disarankan. Kotak pencarian
menggabungkan pelengkapan otomatis kata kunci berdasarkan judul sumber daya DBpedia dan
sinonim menggunakan layanan web Pencarian DBpedia untuk pelengkapan otomatis, dan abstrak yang
ditampilkan memudahkan editor BBC untuk memilih dari konsep yang disarankan. Istilah yang dipilih
hanya ditambahkan ke daftar konsep untuk URL tersebut. Gambar 4 menunjukkan tangkapan layar
Alat Tautan Konten.

Aspek budaya dari anotasi editorial juga dipertimbangkan dan pembelajaran telah diambil dari masa
lalu. Setiap konsep yang ditambahkan atau dihapus akan segera tercermin dalam tautan terkait pada
halaman konten. Ini berarti ada aspek editorial yang dihadapi pengguna dalam anotasi, konsep berakhir
sebagai tautan di halaman dan bukannya tersembunyi di HTML. Perubahan lainnya adalah peralihan
dari bahasa penandaan ke bahasa penautan, dimana editor akan menggunakan 'Alat Tautan Konten'
dan bukan 'Alat Tag Konten'. Hal ini merupakan upaya untuk memastikan pembuat konten menganggap
serius anotasi dan melihatnya sebagai bagian integral dari proses pembuatan konten.

6 Menggunakan Tautan Konsep untuk Membuat Perjalanan Pengguna:


Halaman Topik dan Lencana Navigasi

Kurangnya data terstruktur terkait yang dibahas di awal membuat sulit untuk menyajikan situs BBC
yang koheren. Navigasi lintas situs yang dapat diskalakan secara keseluruhan bergantung pada
keterkaitan data yang dimodelkan dengan baik melalui pengidentifikasi yang disepakati.
Tentu saja hal ini lebih sulit dilakukan jika kontennya tidak terstruktur, yang mana, dalam kasus BBC,
merupakan konten mayoritas.
Salah satu solusi untuk masalah ini adalah pembuatan halaman agregasi konten yang tidak
terstruktur dan terstruktur. Halaman-halaman ini menggabungkan dunia model program BBC
(pengidentifikasi CIS yang dipetakan ke DBpedia) dan dunia artikel BBC News yang tidak terstruktur.
Jenis halaman agregasi ini (halaman topik)
Machine Translated by Google

734 G. Kobilarov dkk.

Gambar 4. Menandai dan Menghubungkan Artikel Berita BBC

telah menjadi populer di situs-situs seperti New York Times dan CNN
karena kemampuannya memfokuskan mesin pencari pada kata kunci tertentu. Untuk BBC
halaman agregasi memiliki manfaat tambahan sebagai node navigasi untuk memfasilitasi
perjalanan melintasi domain konten yang tidak tertaut.
Ketika memutuskan kosakata untuk menggerakkan halaman agregasi BBC, keputusan dibuat
untuk menggunakan DBpedia. Kosakata DBpedia menawarkan sejumlah hal
kelebihannya antara lain:

– Interoperabilitas dengan data spesifik domain BBC lainnya seperti MusicBrainz.


– Lebih murah untuk memeliharanya dibandingkan kosakata yang dipelihara secara internal.
– DBpedia memiliki data tambahan yang tersedia, misalnya: deskripsi singkat, data temporal dan
geolokasi untuk memperkaya halaman agregasi.
– DBpedia menawarkan hubungan asosiatif dan hierarki yang kaya.
– Teks deskriptif DBpedia dapat digunakan sebagai materi pelatihan sistem kategorisasi otomatis.

Menggunakan DBpedia sebagai kosakata kami berarti kami dapat menggabungkan data
terstruktur model domain yang menggunakan pengidentifikasi Linking Open Data (seperti Mu-
sicBrainz) dengan konten tidak terstruktur yang dikumpulkan menggunakan kategorisasi otomatis
sistem berdasarkan dataset DBpedia (dalam hal ini implementasi Otonomi). Selain itu, anotasi mesin
apa pun dapat dikelola secara editorial menggunakan
Alat Tautan Konten.
Machine Translated by Google

Media Bertemu Web Semantik 735

Halaman agregasi ini memungkinkan pengguna berpindah dari orang, tempat, atau subjek
tertentu ke area konten BBC mana pun. Tapi ini hanya separuh cerita karena begitu pengguna
memasuki suatu area konten BBC, hanya ada sedikit tautan ke konten terkait lainnya.
Contohnya mungkin beralih dari halaman agregasi 'wortel' ke resep tertentu (BBC Food) namun
kemudian tidak dapat membuka artikel kesehatan terkait (BBC Health). Yang diperlukan adalah
link pada halaman konten kembali ke halaman agregasi terkait yang menghubungkan
perjalanan pengguna. Menyediakan tautan ini adalah peran lencana navigasi.

Gambar 5. Menghubungkan Dokumen melalui Lencana Navigasi

Lencana navigasi dibuat secara dinamis berdasarkan ekstraksi entitas konten pada
halaman. Konsep yang teridentifikasi kemudian dibandingkan dengan halaman agregasi yang
ada dan jika ada halaman agregasi, maka halaman tersebut akan ditautkan. Ini dilakukan
dengan menggunakan Muddy Boots melalui Content Link Tool. Selain penerapan otomatis
tautan ke halaman agregasi, staf editorial akan dapat menambah dan menghapus tautan
sebagaimana mestinya. Lencana navigasi 'mengetahui' halaman navigasi mana yang harus
ditautkan karena kedua layanan didasarkan pada pengidentifikasi DBpedia. Gambar 5
mengilustrasikan bagaimana berbagai cerita tentang Madonna saling terkait melalui lencana
navigasi, pada gambar yang ditampilkan sebagai kotak “terkait”.
Hasilnya adalah perjalanan pengguna yang koheren dan terukur melalui kombinasi
halaman agregasi dan lencana navigasi. DBpedia dalam hal ini menyediakan tulang punggung
semantik yang dapat digunakan untuk membuat node dalam perjalanan ini dan memastikan
semua layanan menggunakan pengidentifikasi yang sama untuk mengekspresikan konsep tertentu.
Machine Translated by Google

736 G. Kobilarov dkk.

7 Kesimpulan dan Pandangan

Dalam makalah ini, kami menjelaskan bagaimana teknologi Linked Data diterapkan oleh BBC. Kami
menyebutkan dua layanan BBC, BBC Music dan Program BBC, yang menerbitkan data dalam dua domain
berbeda. Kami kemudian menjelaskan sistem kategorisasi, CIS, yang memungkinkan kami untuk
menghubungkan item data dalam layanan yang berbeda ini karena keberhasilan menghubungkan kategori
CIS dengan pengidentifikasi web DBpedia yang sesuai, untuk mendapatkan akses ke hubungan yang
lebih kaya antar konsep. Terakhir, kami mendemonstrasikan bagaimana tautan antar item data ini dapat
bermanfaat bagi pengguna situs web kami, melalui halaman topik dan lencana navigasi.

Ada tiga langkah pengembangan utama berikutnya yang ingin kami uraikan, karena langkah-langkah
tersebut perlu ditangani untuk melanjutkan jalur kami dalam menghubungkan konten BBC dengan lebih
baik dengan bantuan DBpedia:

DBpedia Langsung. Dataset DBpedia saat ini diperbarui hanya setiap 2-3 bulan berdasarkan rilis dump
database Wikipedia. Untuk menjadikan DBpedia tampilan RDF Wikipedia secara real-time, kerangka
kerja DBpedia akan disesuaikan untuk mendukung ekstraksi langsung dan pembaruan kumpulan
data. Ekstraksi langsung akan memberikan umpan balik instan bagi pengguna yang menambahkan
informasi dan membuat informasi tersebut tersedia untuk segera digunakan. Editor BBC News pada
saat mereka menulis artikel tentang suatu peristiwa dapat membuat konsep DBpedia sesuai (seperti
orang yang sebelumnya tidak dikenal terlibat dalam suatu peristiwa) dan langsung mengaksesnya
melalui mekanisme yang dijelaskan dalam makalah ini.

Lebih banyak domain. Sejalan dengan program dan musik, kami juga ingin menambahkan domain
tambahan, khususnya konten acara (misalnya festival musik) dan sejarah alam (spesies, habitat).
Hal ini akan memungkinkan BBC untuk lebih akurat mencerminkan sifat acara seperti Prom - yang
saling terkait dengan program yang meliput acara tersebut dan artis yang tampil di acara tersebut.
Pekerjaan untuk membuat dan menerbitkan domain sejarah alam di bbc.co.uk akan memungkinkan
terjadinya hubungan silang antara program, berita, dll. melalui konsep sejarah alam.

Mesin Kesetaraan. Akhirnya, pekerjaan kami yang menghubungkan CIS dan DBpedia hanyalah sebuah
titik awal. Ada lebih banyak sistem ID dan penyimpanan konsep yang digunakan di BBC, dan kami
ingin membangun mesin kesetaraan generik berdasarkan metode yang dijelaskan di atas (dan serupa
dengan alat penemuan tautan yang sedang dikembangkan pada saat itu[13][14]) secara berurutan
untuk menghubungkan sistem-sistem yang tersisa. Kami berpendapat bahwa mesin kesetaraan
seperti itu tidak hanya akan membantu BBC menghubungkan kumpulan data internal mereka satu
sama lain dan dengan DBpedia, namun juga akan bermanfaat bagi pengembang luar, perusahaan,
dan web yang lebih besar.

Sebagai kesimpulan, kami percaya bahwa BBC dan para penggunanya dapat memperoleh manfaat
besar dari ekosistem konten yang lebih terhubung yang kami buat, dan kami berharap lebih banyak
penyedia konten akan bergabung dengan kami dalam upaya menghubungkan konten dengan proyek
Linking Open Data dan khususnya dengan proyek Linking Open Data. DBpedia dan MusicBrainz untuk
menciptakan jalur navigasi yang lebih bermakna tidak hanya di dalam situs web tetapi di seluruh web.
Machine Translated by Google

Media Bertemu Web Semantik 737

Ucapan Terima Kasih

Kami berterima kasih kepada semua pihak yang telah mewujudkan pekerjaan ini, khususnya kepada
Patrick Sinclair, Nicholas Humfrey, Derek Harvie, Matthew Wood, Frances McNamara, Andrew Shearer
dan Sophie Walpole dari BBC dan Christian Becker dari Freie Universit¨at Berlin.

Referensi

1. Berners-Lee, T.: Masalah Desain: Data Tertaut (2006),


http://www.w3.org/DesignIssues/LinkedData.html 2. Bizer,
C., Cyganiak, R., Heath, T.: Cara mempublikasikan Data Tertaut di Web (2007), http://www4.
wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ 3. Auer, S., Bizer, C., Kobilarov,
G., Lehmann, J., Cyganiak, R., Ives, Z.: DBpedia - A Nucles untuk Web Data. Dalam: Aberer,
K., Choi, K.-S., Noy, N., Allemang, D., Lee, K.-I., Nixon, L., Golbeck, J., Mika, P., Maynard,
D., Mizoguchi, R., Schreiber, G., Cudr´e-Mauroux, P. (eds.) ISWC 2007. LNCS, vol. 4825,
hlm.722–735. Springer, Heidelberg (2007)

4. Giasson, F., Raimond, Y.: Spesifikasi Ontologi Musik (2007), http://


musicontology.com
5. Hepp, M., Bachlechner, D., Siorpaes, K.: Memanen Konsensus Wiki - Menggunakan Entri
Wikipedia sebagai Elemen Ontologi. Dalam: Prosiding Lokakarya Wiki Semantik di ESWC
2006 (2006)
6. Euzenat, J., Shvaiko, P.: Pencocokan Ontologi. Springer, Heidelberg (2007)
7. Shvaiko, P., Euzenat, J.: Sebuah survei pendekatan pencocokan berbasis skema. Jurnal
tentang Semantik Data IV (2005)
8. Raimond, Y., Sutton, C., Sandler, M.: Tautan Otomatis Kumpulan Data Musik di Web
Semantik. Dalam: Lokakarya Prosiding Data Tertaut di Web (LDOW 2008) di Konferensi
Web Seluruh Dunia Internasional ke-17 (2008)
9. Miles, A., Matthews, B., Wilson, M., Brickley, D.: SKOS Inti: Organisasi Pengetahuan
Sederhana untuk Web. Dalam: Prosiding Konferensi Internasional Dublin Core 2005 (2005)

10. Zaragoza, H., dkk.: Memberi Peringkat Sangat Banyak Entitas yang Diketik di Wikipedia.
Dalam: Prosiding Konferensi Internasional ACM Keenam belas tentang Manajemen Informasi
dan Pengetahuan (2007)
11. Dakka, W., Cucerzan, S.: Menambah Wikipedia dengan Tag Entitas Bernama. Dalam:
Prosiding Konferensi Gabungan Internasional ke-3 tentang Pemrosesan Bahasa Alami (2008)

12. Bunescu, R., Pasca, M.: Menggunakan Pengetahuan Ensiklopedis untuk Disam-biguasi
Entitas Bernama. Dalam: Prosiding Konferensi EACL ke-11 (2006)
13. Volz, J., Bizer, C., Gaedke, M., Kobilarov, G.: Silk – Kerangka Penemuan Tautan untuk Web
Data. Dalam: Prosiding Workshop ke-2 tentang Linked Data di Web (2009)

14. Hassanzadeh, O., dkk.: Kerangka Deklaratif untuk Penemuan Tautan Semantik atas Data
Relasional. Poster pada Konferensi World Wide Web ke-18 (2009)

Anda mungkin juga menyukai