Anda di halaman 1dari 42

PENGANTAR UNTUK

MESIN PENCARIAN DAN


NAVIGASI WEB
MARK LEVENE
Departemen Ilmu Komputer dan Sistem Informasi
Universitas Birkbeck London, Inggris
JOHN WILEY & SONS, INC., PUBLIKASI
Hak Cipta © 2010 oleh John Wiley & Sons, Inc. Semua hak dilindungi undang-undang
Diterbitkan oleh John Wiley & Sons, Inc., Hoboken, New Jersey
Diterbitkan secara bersamaan di Kanada
Tidak ada bagian dari publikasi ini yang boleh direproduksi, disimpan dalam sistem
pengambilan, atau dikirim dalam bentuk apa pun
bentuk atau dengan cara apa pun, elektronik, mekanik, fotokopi, rekaman, pemindaian, atau
lainnya,
kecuali sebagaimana diizinkan berdasarkan Bagian 107 atau 108 Undang-Undang Hak Cipta
Amerika Serikat 1976, tanpa
baik izin tertulis sebelumnya dari Penerbit, atau otorisasi melalui pembayaran
biaya per salinan yang sesuai untuk Copyright Clearance Center, Inc., 222 Rosewood Drive,
Danvers,
MA 01923, (978) 750-8400, faks (978) 750-4470, atau di web di
www.copyright.com. Permintaan
kepada Penerbit untuk izin harus ditujukan ke Departemen Izin, John Wiley &
Sons, Inc., 111 River Street, Hoboken, NJ 07030, (201) 748-6011, faks (201) 748-6008, atau
online di
http://www.wiley.com/go/permission.
Batas Pertanggungjawaban / Penafian Jaminan: Sementara penerbit dan penulis telah
menggunakan yang terbaik
upaya dalam mempersiapkan buku ini, mereka tidak membuat pernyataan atau jaminan
sehubungan dengan
keakuratan atau kelengkapan isi buku ini dan secara khusus menyangkal segala yang tersirat
jaminan dapat diperjualbelikan atau kesesuaian untuk tujuan tertentu. Tidak ada jaminan yang
dapat dibuat atau
diperpanjang oleh perwakilan penjualan atau materi penjualan tertulis. Saran dan strategi
terkandung
di sini mungkin tidak cocok untuk situasi Anda. Anda harus berkonsultasi dengan profesional di
mana
sesuai. Baik penerbit maupun penulis tidak bertanggung jawab atas kehilangan laba atau lainnya
kerusakan komersial, termasuk tetapi tidak terbatas pada spesial, insidental, konsekuensial, atau
lainnya
ganti rugi.
Untuk informasi umum tentang produk dan layanan kami yang lain atau untuk dukungan teknis,
silakan hubungi
Departemen Layanan Pelanggan kami di Amerika Serikat di (800) 762-2974, di luar Amerika
Serikat
Menyatakan di (317) 572-3993 atau faks (317) 572-4002.
Wiley juga menerbitkan buku-bukunya dalam berbagai format elektronik. Beberapa konten yang
muncul di media cetak
mungkin tidak tersedia dalam format elektronik. Untuk informasi lebih lanjut tentang produk
Wiley, kunjungi kami
situs web di www.wiley.com .
Library of Congress Kataloging-in-Publication Data:
Levene, M. (Mark), 1957-
Pengantar mesin pencari dan navigasi web / Mark Levene.
hal. cm.
ISBN 978-0-470-52684-2 (pbk.)
1. Pencarian internet. 2. mesin pencari web. I. Judul.
ZA4230.L48 2010
025.0425 – dc22
2010008435
Dicetak di Singapura
10987654321

BAB 4
MENCARI WEB
'' Internet telah menjadi perubahan paling mendasar selama hidup saya dan untuk ratusan tahun.''
- Rupert Murdoch, pemilik media
W E MEMPERKENALKAN pencarian web dengan menghadirkan mesin pencari utama itu
berjuang untuk klik kami. Kami melihat beberapa statistik yang berasal dari mesin pencari
log file, beri kami wawasan tentang bagaimana pengguna menggunakan mesin pencari untuk
menjawabnya
pertanyaan. Kami menggambarkan komponen-komponen mesin pencari dan bagaimana mesin
pencari
memanfaatkan perangkat lunak perayapan khusus untuk mengumpulkan data dari halaman web
dan memelihara
indeks baru yang mencakup sebanyak mungkin Web.
BAB 4 MENCARI WEB
4.1 MEKANIK PENCARIAN KHAS
Saat ini, praktis tidak mungkin menemukan apa pun di Web tanpa
menggunakan mesin pencari untuk membantu kami. Seperti yang sudah saya bahas sebelumnya
bab, untuk memenuhi tujuan pencarian informasi kami, kami paling sering,
harus menggabungkan pencarian dengan navigasi dengan cara yang bijaksana. Pencarian
Peran mesin dalam proses ini adalah mempersempit sekitar halaman web itu
dapat berisi informasi yang diperlukan dan untuk memberikan titik masuk alternatif untuk
pengguna untuk memulai sesi navigasi dari.
Mesin pencari seperti radar yang mengarah ke halaman web yang membantu pengguna
temukan informasi yang relevan. Setelah mesin pencari mengunci ke halaman yang relevan, itu
menyajikan ringkasan halaman itu kepada pengguna. Pengguna kemudian dapat memilih untuk
menelusuri
halaman, dan akan memutuskan apakah akan menavigasi dari halaman itu ke halaman lain oleh
tautan berikut, atau untuk memeriksa ringkasan halaman lain dari mesin pencari
hadiah untuk kueri.
Mari kita lihat mekanisme interaksi pengguna dengan menggunakan mesin pencari
Google, yang saat ini merupakan salah satu pemain dominan di ruang pencarian, seperti kami
mesin pencari biasa. Archie Searcher adalah pengguna pola dasar kami. Dia mulai secara teratur
mencari dari halaman muka Google di www.google.com. Kotak pencarian besar
dan antarmuka pengguna yang sederhana dan rapi menarik baginya. Saat mengetik
permintaannya, Archie jarang menggunakan salah satu fitur canggih tetapi ketika dia
melakukannya, dia
pergi ke antarmuka pencarian lanjutan dan sesekali berkonsultasi dengan fitur bantuan. saya
mendorong Anda untuk menyelidiki fitur-fitur ini di waktu Anda sendiri, dan mungkin
berkonsultasi
sebuah buku terbaru bernama Google Hacks, yang penuh dengan tips dan alat untuk Googlers
[154]. Terlepas dari pencarian web standar, mesin pencari menawarkan layanan pencarian
lainnya
seperti pencarian gambar, pencarian video, pencarian berita, pencarian blog, dan pencarian
produk.
Perang mesin pencari saat ini akan berarti bahwa akan ada persaingan sengit antara mesin
pencari untuk memikat pengguna untuk menggunakan layanan mereka, yang merupakan kabar
baik untuk konsumen pencarian, setidaknya dalam jangka pendek. Untuk saat ini, mari kita
berkonsentrasi pada pencarian halaman web. Archie tertarik di Catur Komputer sehingga ia
memulai kueri dengan mengetikkan kata kunci “computer catur ”ke dalam kotak pencarian
Google seperti yang ditunjukkan pada Gambar 4.1. Google merespons hampir langsung, dalam
waktu sekitar 0,20 detik sesuai dengan perhitungannya, dengan layar penuh hasil, seperti yang
ditunjukkan pada Gambar. 4.2. Google juga memberi tahu kami bahwa ia telah menemukan 3,69
juta hasil yang relevan dengan permintaan kami, sebagai bagian dari jumlah permainan yang
mencari mesin bermain. Hasilnya diberi peringkat dari klik yang paling relevan di bagian atas
halaman ke klik paling tidak relevan di bagian bawah halaman. Mesin pencari sering
menampilkan tautan sponsor di antara hasil mereka, yang adalah iklan yang dibayar oleh
perusahaan yang ingin mengiklankan produk mereka. Ini adalah ditandai sebagai disponsori oleh
mesin pencari, untuk membedakan mereka dari hasil gratis, juga dikenal sebagai hasil
organik. Perlu dicatat bahwa untuk beberapa mesin pencari, seperti Gambar 4.1. Pertanyaan
"catur komputer" yang dikirimkan ke Google. Gambar 4.2 Hasil untuk "catur komputer" dari
Google.
Overture yang kemudian diakuisisi oleh Yahoo, jumlah yang disponsori
tautan mendominasi daftar hasil. Dari sudut pandang bisnis mesin pencari,
pentingnya iklan ini tidak dapat dianggap remeh karena iklan adalah milik mereka
sumber pendapatan utama. (Aliran pendapatan utama lainnya untuk mesin pencari adalah,
tentu saja, menyediakan layanan pencarian.) Singkatnya, tautan sponsor ditampilkan
pada daftar hasil ketika kata kunci yang dipilih oleh pelanggan cocok dengan satu atau lebih
kata kunci dalam permintaan pengguna. Pelanggan biasanya ditagih untuk iklan
atas dasar bayar per klik, artinya setiap kali seorang pencari web mengklik
iklan yang harus dibayar pelanggan. 55 Cara iklan digabungkan dengan
hasil pencarian penting untuk dipahami, karena ini adalah bisnis besar, kita akan lihat
lebih dari itu ketika perang mesin pencari dimulai; kami membahas mesin pencari
beriklan secara rinci di Bagian 6.2.
Archie sekarang mempertimbangkan hasil organik, yaitu, yang tidak spon-
bosan; khususnya, dia berkonsentrasi pada salah satu hasil peringkat tertinggi. Nya
judul adalah "Pemrograman Catur Komputer," dan mengklik pada judul akan menyebabkan
browser untuk memuat halaman web untuk dilihat. Di bawah judul ada ringkasan dan
deskripsi halaman web, berisi beberapa kalimat kunci dan frasa untuk
halaman yang berkaitan dengan kueri. Ringkasan itu dinamis; itu adalah spesifik
ke pertanyaan "catur komputer." Ketika halaman web ini ada dalam daftar hasil untuk a
permintaan yang berbeda, itu akan memiliki ringkasan yang berbeda. Jadi, untuk kueri
"komputer
catur ”kami mendapatkan ringkasannya,
Informasi tentang pemrograman catur komputer , tautan ke sumber program catur ,
publikasi catur komputer , penelitian catur komputer . ... Komputer Catur Pro-
gramming. ...
untuk hasil peringkat tinggi ini, dan untuk kueri "penelitian game komputer," kami dapatkan
ringkasan yang berbeda
... Penelitian Game Komputer : Kelompok Penelitian dan Game Penelitian Komputer . Lain
tautan terkait catur komputer . Kejuaraan Catur Komputer : ...
untuk halaman web yang sama, sekarang peringkat di posisi yang berbeda pada daftar hasil.
Fitur lain yang muncul untuk halaman web pada hasil mesin pencari
daftar adalah URL-nya; yaitu, alamat halaman web di ujung tautan yang lain, the
ukuran halaman hasil, kategori Open Directory jika halaman ini ada di
daftar direktori seperti yang ditunjukkan pada Gambar 4.3 (fitur ini dinonaktifkan pada 2004
ketika
tangkapan layar ini diambil, dan akan berguna saat dibangkitkan), versi yang di-cache
halaman web, dan fitur "halaman serupa" yang mungkin didasarkan pada
suatu algoritma yang dikembangkan oleh Monica Henzinger [182], yang (pada 2010) adalah a
direktur penelitian di Google.
Jika, alih-alih memasukkan kata kunci individual "catur komputer," Archie
memasuki frasa "catur komputer", dengan menggabungkan kata kunci menggunakan ganda
64 PENDAHULUAN UNTUK MESIN PENCARIAN DAN NAVIGASI WEB
Gambar 4.3 Kategori yang relevan dari direktori untuk "catur komputer" dari Google.
kutipan, Google akan merespons dengan hasil seperti yang ditunjukkan pada Gambar
4.4. Sebagian besar
menarik untuk dicatat bahwa daftar hasil berbeda dari yang sebelumnya. Setelah kamu
telah membaca bab berikutnya, dan Anda memiliki pemahaman yang lebih baik tentang internal
bekerja dari mesin pencari, Anda mungkin ingin berhipotesis tentang mengapa ada
perbedaan seperti itu. Cukuplah untuk mengatakan pada tahap ini bahwa pencocokan frasa
bersikeras
bahwa seluruh frasa, yaitu, "catur komputer" harus cocok, daripada
kata kunci individual, komputer dan catur, jadi ini adalah persyaratan yang lebih ketat
pada proses pencocokan.
4.2 MESIN PENCARIAN SEBAGAI INFORMASI
GATEKEEPERS OF THE WEB
Mesin pencari saat ini adalah penjaga gerbang informasi utama dari Web,
memegang kunci berharga yang diperlukan untuk membuka kunci Web keduanya, untuk
pengguna yang
mencari informasi dan untuk penulis halaman web yang ingin membuat suara mereka
dengar. Kotak mesin pencari tempat kami dapat meluncurkan kueri web hadir
tidak hanya di beranda mesin pencari tetapi juga di halaman portal dan
direktori web, yang dapat menawarkan alternatif, layanan pencarian khusus. Web
kotak pencarian hampir di mana-mana, jika kita ingin mempertimbangkan toolbar mesin pencari
utilitas yang terhubung ke peramban memungkinkan kita untuk mengakses mesin pencari web
langsung tanpa membuka beranda mesin pencari. 56 Melihat kembali
56 Bilah alat & utilitas penelusuran, oleh Chris Sherman, Mei 2003.
www.searchenginewatch.com/links/
Gambar 4.4 Hasil untuk frasa “catur komputer” dari Google
Gambar 4.2. Anda dapat melihat bahwa toolbar Google telah diinstal pada browser Archie
dengan kueri "catur komputer" sudah diketik ke dalam kotak pencarian bilah alat, mencatat
bahwa Archie dapat meminta pencarian dari toolbar saat menjelajahi halaman web mana pun
apa pun. Jutaan pengguna telah mengunduh bilah alat Google 57 dan
toolbar mesin pencari lainnya, yang memungkinkan mesin pencari pilihan mereka langsung
akses ke perilaku pencarian informasi para penggunanya termasuk Archie.
Sebagai penjaga gerbang informasi, mesin pencari web memiliki kekuatan untuk memasukkan
dan mengecualikan situs web dan halaman web dari indeks mereka dan untuk mempengaruhi
peringkat halaman web pada daftar hasil pencarian. Mesin pencari web dengan demikian
memiliki
pengaruh besar pada informasi apa yang akan dikaitkan pengguna dengan Web.
Bayangkan skenario futuristik berikut, ketika mesin pencari berperang
sudah berakhir dan mesin pencari tunggal mendominasi Web; mari kita sebut pencarian ini
mesin dominan-SE. Sebagai pemonopoli informasi web, Dominant-SE dapat
tentukan bagaimana kita melihat Web, karena tanpa lensa kita hampir buta kapan
datang untuk menemukan sesuatu yang berguna di Web. Dominant-SE dapat membuat atau
menghancurkan
bisnis apa pun yang mata pencahariannya bergantung pada visibilitas web, dan beri kami makan
dengan kami
informasi yang dipilihnya sebagai jawaban atas pertanyaan kami. Dominan-SE kemungkinan
besar akan terjadi
dapat melacak kueri individual kami dan memberi kami makan dengan versi yang dipersonalisasi
Web, dirancang untuk memaksimalkan keuntungannya. Ini memang masalah politik
konsekuensi hukum yang serius bagi masyarakat demokratis dengan ekonomi bebas.
Mesin pencari adalah agregator informasi daripada perusahaan media.
nies dalam arti tradisional. Namun, mesin pencari web utama adalah untuk-laba
perusahaan dan dengan demikian, mirip dengan perusahaan media dalam periklanan itu
57 Google akan dilengkapi toolbar, Juni 2003.
www.wired.com/news/business/0,1367.59418,00.html.
model bisnis inti mereka [654]. Sebagai perusahaan komersial, mesin pencari adalah
bertanggung jawab kepada pelanggan mereka yang membayar, yang sebagian besar adalah
pengiklan [305], dan
membuat pilihan editorial untuk memuaskan audiens dan pelanggan mereka. Contohnya adalah
menghilangkan untuk menampilkan hasil pencarian ofensif dan menekan sensitif secara politis
hasil. Ada juga kontrol editorial dalam pemilihan iklan; misalnya, pilih
tidak memiliki iklan terkait "senjata" atau "narkoba". Pilihan yang dibuat oleh
mesin pencari utama bervariasi, dan masih belum jelas apa arti bias ini dari
perspektif wacana demokratis [184].
Ada peningkatan peraturan pendukung suara mesin pencari karena
kemungkinan bias komersial, di mana orang kaya dan berkuasa dapat menggunakan pengaruh
mereka dan
dolar untuk menentukan apa yang dapat diambil oleh mesin pencari. Introna dan Nissenbaum
[323] berpendapat bahwa Web adalah barang publik dan karenanya sumber dayanya harus
dihargai sesuai dengan prinsip-prinsip publik daripada norma-norma pasar. Mereka memanggil
tidak hanya untuk lebih banyak argumen dan diskusi tentang masalah ini tetapi juga untuk
kebijakan
dan aksi.
Sebagai langkah pertama, mereka mengusulkan agar mesin pencari mengungkapkan dasar
mereka
algoritma secara penuh dan jujur. Ini sepertinya tidak praktis
permintaan karena mesin pencari berada di tengah pertempuran terus menerus dengan situs web
yang menggunakan pemahaman mereka tentang mekanisme peringkat mesin pencari untuk
mencoba dan
memanipulasi peringkat secara artifisial untuk keuntungan mereka. Apalagi penipuan iklan
adalah masalah serius bagi mesin pencari [200], dan berbagi metode mereka akan
membuatnya lebih mudah bagi penipu untuk mengalahkan sistem mereka.
Optimalisasi dan visibilitas mesin pencari saat ini menjadi bisnis besar
banyak perusahaan menawarkan cara untuk meningkatkan peringkat situs web Anda dan
melawan
metode yang tidak bermoral, mesin pencari terus meningkatkan peringkat mereka
Algoritma, yang disimpan di bawah kunci dan kunci, untuk melindungi diri dari
pelanggar. (Dalam Bab 5, ketika saya menjelaskan ide di balik peringkat mesin pencari
metode saya akan kembali ke masalah optimasi mesin pencari.)
Seluruh masalah "keadilan" berkaitan dengan penampilan pada pencarian
Daftar mesin tidak memiliki interpretasi hukum yang disepakati, jadi cari
mesin memiliki dilema yang sulit untuk dihadapi ketika mereka ingin mengecualikan web
situs; misalnya, karena rasisme, pornografi, pelanggaran hak cipta atau kejahatan
Optimisasi Mesin Pencari.
Keputusan oleh Google untuk mengecualikan beberapa situs web dari indeks mereka miliki
telah disebut "hukuman mati Google" oleh Zittrain dari Berkman Center
untuk Internet & Masyarakat di Harvard Law School ([707], hal. 218), karena, karena
dominasi Google saat ini, situs-situs ini secara efektif terputus dari mereka
audiens yang dituju. Zittrain bersama Edleman, juga dari Harvard Law
Sekolah, telah mempelajari pengecualian hasil pencarian, 58 dan masalah yang lebih luas terkait
penyaringan internet, tempat organisasi atau negara berusaha membatasi akses
situs web tertentu dari dalam tempat dan wilayah mereka. 59
Pada tahun 2003, Google dinominasikan untuk penghargaan Big Brother yang
dikirim oleh organisasi nirlaba Privacy International 60 ke perusahaan yang
telah melakukan yang terbaik selama setahun terakhir untuk menyerang privasi kami. Siapa pun
bisa
dinominasikan untuk penghargaan ini dan pada akhirnya, Google bukan salah satu dari itu
finalis, tetapi publisitas nominasi ini telah diberikan dalam pers teknologi
telah mengajukan beberapa pertanyaan penting tentang privasi pencarian. (Google juga
dinominasikan untuk penghargaan Big Brother pada tahun 2007, sebagai perusahaan paling
invasif, tetapi
lagi-lagi gagal memenangkan penghargaan.)
Nominasi 2003 dibuat oleh Google-Watch (www.google-watch.
org), yang mengklaim mekanisme pencarian Google sedang menginvasi privasi kami
mempertahankan semua informasi pencarian kami. Ketika Archie pertama kali mengunjungi
Google, sebuah cookie
(lihat Bagian 3.5) dikirim dari Google ke komputer Archie, memungkinkan Google
untuk menyimpan preferensi Archie dan untuk mengidentifikasi Archie setiap kali dia mencari
menggunakan
Google. Meskipun Archie dapat mengatur browsernya untuk menolak cookie, seperti
kebanyakan web
peselancar, dia sadar bahwa ini dapat membatasi fungsionalitas layanan, dan dia punya
tidak punya waktu atau kecenderungan untuk menggali lebih dalam masalah ini, dan menimbang
pro dan kontra cookie. Google 61 dan layanan pencarian lainnya seperti Yahoo 62
memperjelas kebijakan privasi mereka untuk melawan tuduhan yang mereka gunakan Besar
Taktik saudara.
Satu hal yang penting untuk diketahui adalah bahwa informasi hadir
cookie pada umumnya tidak cukup untuk mengidentifikasi Anda secara pribadi. SEBUAH
cookie dapat digunakan untuk mengaitkan alamat web dengan pencarian Anda, tetapi lebih jauh
informasi tentang Anda hanya dapat diperoleh jika penyedia layanan mendapatkan Anda (yaitu,
pengguna) untuk mendaftar dengan mereka sebagai imbalan untuk beberapa manfaat tambahan,
atau jika
penyedia layanan menggunakan program penambangan data untuk mencoba dan menyatukan
web
alamat dengan pengguna. Penggunaan normal cookie adalah anonim, dan dengan sendirinya
tidak akan menjadi bukti yang cukup untuk menodai reputasi layanan pencarian.
Danny Sullivan, pencipta Search Engine Watch dan yang terbaru adalah Search
Engine Land, telah menulis panjang lebar tentang masalah ini 63 menyatakan bahwa ada privasi
masalah yang harus kita ketahui tentang semua mesin pencari tetapi dalam kebanyakan kasus
pengguna tidak dapat dilacak secara pribadi, kecuali mereka terdaftar dan masuk.
Salah satu masalah yang sangat penting ketika kita menggunakan online
layanan, baik itu mesin pencari atau portal e-commerce, adalah kepercayaan. Itu
tantangan dari setiap layanan tersebut adalah untuk membangun hubungan saling percaya
penyedia layanan dan penggunanya, dan menggabungkannya dengan yang terbuka dan jelas
Kebijakan pribadi.
Karena periklanan saat ini adalah roti dan mentega dari layanan pencarian, mereka
ingin mempersonalisasi iklan untuk meningkatkan klik-tayang yang menjadi sumber pendapatan
mereka
tergantung. Ini bentuk iklan tempat pengguna ditampilkan iklan sesuai dengan mereka
preferensi pribadi dikenal sebagai penargetan perilaku , yang dibahas dalam Bagian 6.2.4;
68 PENDAHULUAN UNTUK MESIN PENCARIAN DAN NAVIGASI WEB
Google lebih suka menyebutnya iklan berbasis minat. 64 Jelas ada privasi
masalah dengan mode iklan ini tetapi ada juga kekhawatiran akan keadilan dalam
penetapan harga sebagai penargetan perilaku memungkinkan penetapan harga diferensial,
misalnya
dengan menawarkan diskon kepada pelanggan setia [27].
Informasi tentang perilaku pencarian kami juga dapat digunakan untuk mempersonalisasi
hasil pencarian itu sendiri, sebuah topik yang akan kita bahas di Bagian 6.4. Ini bisa
mengarah pada peningkatan kualitas pencarian dan penguncian lebih lanjut dari pengguna ke
pencarian tertentu
mesin sehingga meningkatkan pangsa pasar mesin itu. Pada akhirnya, mesin pencari
dapat membebankan biaya kepada pengguna untuk perangkat lunak yang akan memberikan
layanan pribadi tambahan.
Ada konflik yang sedang berlangsung untuk mesin pencari antara tujuan pengiriman
ering hasil berkualitas tinggi kepada pengguna dan memaksimalkan keuntungan dari
iklan. Sebagai
hambatan masuk di ruang pencarian web sangat tinggi, terutama karena tingginya
biaya infrastruktur yang perlu disesuaikan dengan ukuran web yang sedang tumbuh, perusahaan
Petisi untuk mendominasi pasar mesin pencari web hanya di antara beberapa pemain
dipimpin oleh Google, Yahoo, dan Microsoft. Persaingan dan usaha yang sempit ini
dikeluarkan oleh mesin pencari untuk mengunci pengguna ke layanan mereka melalui tambahan
layanan seperti e-mail, membuat penyelesaian konflik semakin tidak pasti.
Namun, mesin pencari perlu waspada, karena ketika kualitas pencarian turun di bawah ini
ambang batas maka pengguna akan cacat ke mesin pencari lain [184]. Bhargava dan
Feng [80] memandang masalah ini dalam konteks permintaan pasar sebagai fungsi
kualitas teknologi pencarian dan bias yang disebabkan oleh pencarian yang disponsori
iklan (juga dikenal sebagai penempatan berbayar , ketika iklan ditampilkan berdampingan
dengan
hasil organik gratis yang dikembalikan oleh mesin pencari untuk permintaan yang
diberikan; Bagian
6.2). Meningkatkan kualitas meningkatkan permintaan, sementara meningkatkan bias menurun
permintaan. Mesin pencari harus menemukan titik keseimbangan antara permintaan pengguna
untuk kualitas dan permintaan pengiklan untuk bias. Dalam konteks pencarian yang disponsori,
bias dapat dilihat sebagai jumlah slot iklan, yaitu jumlah
hasil yang disponsori, dialokasikan oleh mesin pencari saat menampilkan pencarian
hasil. Ini berdampak pada kualitas mesin pencari, seperti meningkatkan
Bias akan menurunkan kualitas pencarian seperti yang dirasakan oleh penggunanya, yang pada
gilirannya
akan menyebabkan pengguna cacat ke mesin pencari lain dan dengan demikian mengurangi
permintaan
iklan. Feng et al.  [214] melakukan percobaan simulasi yang menunjukkan
bahwa ketika kesediaan pengiklan untuk membayar iklan berkorelasi positif
dengan relevansi iklan dengan persyaratan kueri yang terkait dengannya, ada a
jumlah maksimum slot iklan di luar yang diharapkan dari pendapatan
mesin pencari dari pencarian yang disponsori akan berkurang.
4.3 PERANGKAT MESIN PENCARIAN, APAKAH DUST SETTLING?
Dan kemudian ada tiga: Google (www.google.com), Yahoo (www.yahoo.com),
dan mesin pencari Microsoft, Bing (www.bing.com). Pencarian
perang mesin telah memanas pada kuartal terakhir tahun 2003 dengan serangkaian akuisisi

hanya menyisakan tiga pemain untuk memperebutkan dominasi ruang pencarian. Cepat untuk-
menangkal awal 2010 (dan masa mendatang) dan Google masih
mesin pencari paling populer dengan bagian terbesar pengguna, tetapi Microsoft
dan Yahoo melawan. Sejak Juli 2009 Yahoo dan Microsoft telah bergabung
kekuatan dalam kesepakatan 10 tahun di mana Microsoft akan memberi daya pada mesin pencari
Yahoo
dan Yahoo akan mendorong penjualan iklan mesin pencari untuk kedua perusahaan. 65
Seperti yang akan kita lihat, para pesaing dalam game ini tidak bisa berbeda dari itu
satu sama lain.
4.3.1 Pesaing Nomor Satu: Google
Google adalah lambang teknologi mesin pencari dan namanya identik
dengan pencarian berkualitas tinggi yang efisien. Menurut Word Spy, kata google memiliki
telah dinaikkan ke kata kerja yang identik dengan mencari informasi di Web. 66
Misalnya, jika Anda berkencan, "googling" artinya calon pasangan
menggunakan mesin pencari untuk menemukan lebih banyak tentang orang ini. Hingga Google
menjadi
sebuah perusahaan publik, itu adalah kesayangan mesin pencari, tetapi tampaknya
bahwa periode bulan madu sudah berakhir. Sebagai bisnis, pertumbuhannya sejak itu
permulaan pada bulan September 1998 telah beredar, dan tetap bersifat pribadi
perusahaan sampai IPO (Penawaran Umum Perdana) pada Agustus 2004. 67 IPO Google
bukan tanpa kontroversi, karena sebagian besar saham dikeluarkan melalui Belanda
mekanisme lelang. Cara pelelangan jenis ini bekerja adalah yang ditawar oleh investor
sejumlah saham dengan harga yang bersedia mereka bayarkan, dan kemudian harga ditetapkan
dengan mempertimbangkan tawaran tertinggi yang menambahkan hingga jumlah saham yang
dialokasikan
dan menetapkan harga saham pada harga terendah dari penawaran pemenang 68 ini ; sana
bahkan merupakan situs web yang sepenuhnya didedikasikan untuk diskusi dan berita tentang
IPO
(www.google-ipo.com).
Ada beberapa kekhawatiran tentang kekuatan yang Google kumpulkan, sebagaimana adanya
terbukti bahwa saat ini pemain dominan di ruang pencarian. Kebanyakan
aliran pendapatannya berasal dari iklan, dan sebagai perusahaan yang menguntungkan
pertama-tama harus mempertimbangkan pelanggan yang membayar untuk meningkatkan lebih
lanjut
pendapatan. Akuisisi perusahaan DoubleClick yang melayani iklan internet
(www.doubleclick.com) pada 2008, dan perusahaan periklanan mobile AdMob
(www.admob.com) pada tahun 2009, menunjukkan tekad Google untuk mendominasi pencarian
iklan mesin dalam segala bentuknya.
Sebagai pengguna awal Google, saat itu masih dalam tahap beta sebagai
mesin pencari baru yang tidak dikenal yang dikembangkan oleh dua mahasiswa pascasarjana di
Stanford,
sekarang sulit bagi saya untuk membayangkan mencari di Web tanpa itu. Sebagai pengguna web
kita harus menikmati pencarian yang berkualitas namun perlu diingat bahwa ada jebakan yang
bisa
membahayakan kualitas ini jika pencarian dimonopoli oleh perusahaan mana pun. Pada
70 PENDAHULUAN UNTUK MESIN PENCARIAN DAN NAVIGASI WEB
saat Archie Searcher terutama berkaitan dengan memuaskan informasinya
kebutuhan dengan menemukan halaman web yang relevan, dan teknologi pencarian saat ini,
dengan Google
memimpin paket, tidak mengecewakannya.
4.3.2 Pesaing Nomor Dua: Yahoo
Pesaing kedua kami Yahoo adalah perusahaan veteran dot-com yang didirikan
oleh dua mahasiswa pascasarjana yang berbeda dari Stanford pada tanggal awal Februari
1994. Untuk waktu yang lama, daftar direktori situs web Yahoo menyediakan yang utama
titik masuk untuk peselancar web yang mencari situs yang bermanfaat. Jika Google sama artinya
dengan pencarian, maka Yahoo identik dengan booming dot-com dan mungkin
merek paling terkenal di Web.
Bertentangan dengan menjadi mesin pencari, Yahoo memulai sebagai sebuah direktori,
memungkinkan para pengunjungnya untuk menelusuri halaman web sesuai dengan yang intuitif
dan bermanfaat
mengatur kategori. Direktori ini dikelola secara manual oleh tim editor yang
tentukan halaman web mana yang akan dimasukkan dalam kategori sesuai dengan set
kriteria internal; sebagian besar situs yang disertakan disarankan oleh pengguna dan kemudian
dievaluasi oleh editor untuk dimasukkan dalam direktori. 69 pendapatan utama Yahoo
stream berasal dari iklan dan kemitraannya dengan vendor e-commerce.
Hingga tahun 2003, Yahoo tidak memiliki kemampuan pencarian sendiri dan itu
menggunakan Google untuk menggerakkan pencariannya. Tetapi akuisisi pencarian utama
penyedia Inktomi pada Maret 2003, dan dari mesin pencari penempatan berbayar
Overture pada bulan Juli 2003, yang pada gilirannya mengakuisisi mesin pencari web AlltheWeb
(www.alltheweb.com) dan AltaVista (www.altavista.com) pada April 2003, telah
secara dramatis mengubah situasi ini. Setelah pengambilalihan ini, CEO Yahoo mengatakan itu
“Memiliki teknologi pencarian algoritmik akan memungkinkan Yahoo menjadi lebih inovatif.
vatif dan kreatif tentang layanan terkait pencarian yang akan disediakannya. " 70 Memang,
banyak teknologi pencarian Web sekarang dibagi antara Yahoo dan Google,
dan pertempuran antara raksasa ini masih jauh dari selesai karena setiap pemain akan melakukan
yang terbaik
untuk memanfaatkan teknologi pencarian dan jangkauan pasarnya. Tonggak penting
Yahoo meluncurkan mesin pencari terintegrasinya sendiri pada awal 2004. 71
Yahoo terus berinovasi dalam ketentuan pencariannya dalam upaya untuk bersaing
dengan Google. Sebagai contoh, alatnya SearchScan memperingatkan pengguna tentang situs
spam
dan situs yang mungkin mengandung spyware atau virus yang berpotensi berbahaya, dan alatnya
Search Assist menawarkan saran pengguna dan konsep terkait untuk membantu menyelesaikan,
memperluas atau memodifikasi istilah kueri. 72
4.3.3 Pesaing Nomor Tiga: Bing
Pemain ketiga, Microsoft, identik dengan perangkat lunak PC. Kita sudah
melihat bagaimana Microsoft mendominasi pasar browser ketika diputuskan untuk memasuki
persaingan dengan Netscape, menggunakan kekuatannya yang luar biasa melalui Netscape
kontrol desktop. Sekarang jelas bahwa Microsoft berinvestasi dalam jumlah besar
teknologi pencarian web untuk meningkatkan Bing, yang merupakan mesin pencari web mereka
yang sekarang juga memperkuat pencarian di portal MSN. Pada akhir 2004, MSN
masih menggunakan teknologi pencarian Yahoo melalui anak perusahaannya, Inktomi (sekarang
terintegrasi dengan pencarian Yahoo), untuk memberi daya layanan pencariannya, dan Overture
untuk
mengelola daftar bayarannya. Apalagi sampai awal 2004 MSN Search
menggunakan LookSmart, yang merupakan pemain yang lebih kecil dalam game ini, untuk
direktori
jasa. 73
Sebagai indikasi komitmen mereka untuk mencari, Microsoft pertama-tama memeriksa ulang
pencarian situs di situs web perusahaannya, dengan tujuan utama meningkatkan
relevansi hasil pencariannya dan standarisasi pengalaman pencarian di seluruh
Microsoft.com. Bagian dari minat Microsoft dalam pencarian terkait dengan pengembangan
dari sistem operasi Windows di mana ia bermaksud untuk mengikat pencarian yang dilokalkan
PC dengan pencarian web, dengan menautkan ke layanan pencarian Bing.
Tujuan jangka pendek Microsoft di arena pencarian web, pada saat itu, adalah untuk
ganti teknologi pencarian Inktomi dengan miliknya. 74 Sebagai langkah pertama, pada
pertengahan 2003,
itu melepaskan MSNBot, yang merupakan prototipe perayap web yang dikembangkan oleh MSN
Cari, yang membangun indeks global halaman web dan situs web yang sedang
digunakan sebagai basis data yang mendasari untuk mesin pencarian web milik Microsoft.
Perayap web adalah program perangkat lunak yang melintasi halaman web, mengunduhnya
untuk mengindeks, dan mengikuti (atau memanen) hyperlink yang dirujuk pada
halaman yang diunduh. (Perayap web biasanya akan dimulai dari banyak web
halaman dan bertujuan untuk mencakup sebanyak mungkin web yang dapat diindeks; kami akan
bahas perayap web secara rinci di Bagian 4.6.)
Sejak paruh kedua 2004, MSN Search telah menawarkan pratinjau
dari mesin pencari web miliknya di situs Sandbox-nya, di mana beberapa di antaranya
teknologi prototipe dipajang. 75 Pada November 2004 MSN dirilis
versi beta dari mesin pencariannya, didukung oleh indeks lebih dari 5 miliar web
halaman. 76 Pada bulan Februari 2005, Pencarian MSN secara resmi dirilis melalui
situs pencarian utama. 77 Ada lagi yang akan datang dari MSN Search saat mereka
menambahkan
fitur baru ke mesin mereka.
MSN Search diganti namanya menjadi Live search pada akhir 2006 dan pada tahap ini,
dipisahkan dari portal MSN. Sebagai upaya rebranding lebih lanjut, Microsoft
meluncurkan pencarian Bing (www.bing.com) pada Mei 2009, sebagai pengganti Live
Cari. Bing dipasarkan sebagai mesin keputusan (www.decisionengine.com),
menunjukkan bahwa Microsoft ingin beralih dari pencarian dengan menjadi lebih banyak
pengguna-
sentris dan membantu orang membuat keputusan yang lebih baik. Microsoft juga terintegrasi
mesin belanja ke Bing, memberikan peselancar dengan lebih banyak insentif untuk
menggunakannya
mesin pencari melalui program cash-back (www.bing.com/cashback), yang
menawarkan uang kembali kepada pengguna saat mereka melakukan pembelian melalui situs.
4.3.4 Pesaing Lainnya
Di balik layar mengintai raksasa komputer IBM yang telah terlibat dalam pencarian
teknologi mesin sejak masa awal Web. Pencarian CLEVER IBM
mesin, yang tidak pernah melihat cahaya hari [131], telah sangat berpengaruh di dunia
pengembangan metode yang memanfaatkan hubungan antara situs web untuk meningkatkan
kualitas hasil pencarian. Orang tidak akan pernah bisa mengabaikan IBM bahkan sebagai
pelanggan terlambat
dalam perlombaan ini, dan proyek WebFountain-nya [271] telah dideskripsikan oleh seniornya
wakil presiden penelitian sebagai "Google on steroid." 78
Dua layanan pencarian yang lebih kecil untuk diwaspadai adalah Ask Jeeves atau sederhana
Tanyakan (www.ask.com) dan Cuil (www.cuil.com), tetapi kita tidak boleh diskon baru
pemain memasuki pertempuran dengan teknologi pencarian baru seperti yang dijelaskan
di bab-bab selanjutnya. Ask adalah layanan pencarian yang, selain pencarian, menggunakan
alami
teknologi bahasa untuk memberikan jawaban atas pertanyaan yang dirumuskan sebagai
pertanyaan atau
kata kunci. Pencariannya didukung oleh mesin pencari Teoma, yang mereka peroleh
pada September 2001, dan berganti nama menjadi mesin pencari Tanya di awal tahun 2006.
Hidup
Sebaliknya, Cuil adalah mesin pencari yang relatif baru yang ditayangkan pada pertengahan
2008
dengan indeks besar-besaran 120 miliar halaman web. Itu memiliki masalah gigi sebagai
server macet pada hari diluncurkan dan ada juga beberapa kritik
tentang relevansi hasil-hasilnya. 79 Cuil juga memasuki arena pencarian sosial,
dengan menganalisis data web real-time dari microblogging (lihat Bagian 9.5.5) dan
situs jejaring sosial (lihat Bagian 9.1.5) untuk segera menampilkan data yang relevan
muncul atau sedang dibahas. 80
Perang mesin pencari, seperti perang portal, 81 adalah pertempuran untuk menarik
pengguna ke situs mereka, di mana berbagai layanan ditawarkan. Dari rev mesin pencari
Namun, sejauh ini sebagian besar layanan terkait dengan periklanan.
Para pemenang dalam game ini akan menyediakan pencarian untuk seluruh planet ini.
Tentu saja, pada saat buku ini dicetak untuk mencetak medan pertempuran mesin pencari
tidak akan terlihat sama persis seperti sekarang selama pertengahan 2010, tetapi pada
saat itu tampaknya konflik itu akan berkepanjangan, dan semoga saja dari
dimana pengguna akhir akan mendapat manfaat dengan teknologi pencarian yang lebih
berkualitas.
4.4 STATISTIK DARI STUDI MESIN PENCARIAN
LOG QUERY
Apa istilah pencarian paling populer di Web? Dan, bagaimana permintaan pengguna
berhubungan dengan peristiwa dan suasana hati orang-orang pada saat tertentu? Pertanyaan
seperti itu
dan yang lain yang berkaitan dengan kebiasaan pencari web dapat diperoleh dari mesin pencari
log yang merekam setiap kueri yang kami terbitkan. Catatan Zeitgeist Google halaman 82
tren dan pola pencarian melalui penggunaan mesinnya setiap hari dan
diringkas dalam periode yang lebih lama. (Menurut kamus Oxford, zeitgeist
adalah kata Jerman untuk "roh waktu" yang lebih sering diterjemahkan sebagai "roh zaman";
ini merujuk pada semangat atau suasana hati dari suatu periode sejarah tertentu.)
Tren ini didasarkan pada miliaran pencarian Google yang terkoneksi
disalurkan selama tahun ini, dari seluruh dunia. Anda dapat mengetahui siapa itu
orang paling populer di tahun itu, merek apa yang paling populer, dan lainnya
informasi seperti berita utama untuk tahun ini.
Dengan milyaran pencarian per hari, yang jumlahnya mencapai puluhan
ribuan pencarian setiap detik, Google bisa mendapatkan gambar yang sangat jelas
apa yang dicari oleh pencari web (lihat Bagian 2.1.2 untuk detail lebih lanjut tentang pencarian
statistik penggunaan mesin).
4.4.1 Log Kueri Mesin Pencari
Log kueri mesin pencari merekam berbagai bit informasi untuk masing-masing
permintaan dikeluarkan. Pertama, kode pengguna anonim diberikan ke kueri, dan ini
kode digunakan untuk mengidentifikasi alamat web pengguna (cookie dapat digunakan untuk
melacak
permintaan pengguna dari waktu ke waktu). Kedua, waktu dan tanggal permintaan dicatat.
Ketiga, persyaratan kueri yang diajukan oleh pengguna dicatat dan terakhir, halaman
dilihat oleh pengguna dan peringkat mereka dalam daftar hasil pencarian dicatat. Itu
format data log memungkinkan penentuan sesi kueri, di mana pencarian
sesi adalah urutan kueri berturut-turut yang dibuat oleh satu pengguna dalam satu kecil
jendela waktu.
Terlepas dari popularitas istilah, statistik berguna lainnya yang dapat diukur
dari data log kueri adalah topik paling populer yang terkait dengan kueri, rata-rata
jumlah istilah per kueri, jumlah rata-rata kueri per sesi, jumlah rata-rata
ber dari halaman hasil dilihat per permintaan, dan penggunaan fitur pencarian lanjutan.
Tabel 4.1 merangkum beberapa hasil yang ditemukan dari log kueri AltaVista
(1998) [608], Excite (2001) [625], AlltheWeb (2002) [333], dan metasearch
engine Vivisimo (2004) —yang telah dinamai ulang menjadi Clusty [386] —dan Dog-
tumpukan (2005) [335]. Seperti dapat dilihat, kueri web mengandung sangat sedikit
istilah; sebagian besar permintaan
sesi hanya berisi satu hingga dua kueri, pengguna hanya melihat antara satu hingga dua
layar hasil, dan dalam kebanyakan kasus, istilah tersebut hanya diketik ke dalam kotak kueri
tanpa menggunakan sintaks kueri lanjutan. (Kesimpulan serupa diperoleh
dari analisis log kueri Penelusuran MSN dari 2006 [700].)
Sangat menarik bahwa kesimpulan utama dari log kueri tampaknya
bahasa scend. Analisis yang dilakukan pada log kueri Naver, yang
adalah mesin pencari terkemuka di Korea, muncul dengan hasil yang sama [531]. Satu
Perbedaannya adalah bahwa urutan kata benda sederhana dalam bahasa Korea dapat dipisahkan
dengan pembatas atau disatukan menjadi kata benda majemuk. Dengan demikian, jumlah rata-
rata
Ber istilah dalam kueri Naver adalah 2,03 yang menghitung kata benda sederhana dalam kueri
tetapi hanya 1,13 ketika mempertimbangkan input kata benda majemuk. Studi lain dilakukan
pada log permintaan Timway (www.timway.com), yang merupakan portal web dan
direktori yang dirancang untuk mencari situs web di Hong Kong, menunjukkan paten serupa
kotak untuk pencarian menggunakan karakter Cina [135]. Seperti pencarian Korea, di sana
adalah efek bahasa, karena Cina lebih berbasis karakter daripada berbasis istilah
bahasa. Ditemukan bahwa jumlah rata-rata karakter per permintaan adalah 3,38,
yang lebih besar dari jumlah istilah dalam kueri berbasis bahasa Inggris, seperti yang
ditunjukkan pada
Tabel 4.1. Ada lebih sedikit karakter Cina daripada istilah bahasa Inggris dan
ini dicerminkan oleh fakta bahwa 50 karakter mewakili seperempat
semua karakter dalam log, yang jauh lebih tinggi daripada dalam log bahasa Inggris; untuk
contoh, dalam log Dogpile, 100 istilah yang paling sering digunakan adalah kurang dari a
kelima dari semua istilah dalam data log [335].
Statistik terkini dari tahun 2009 memberikan beberapa bukti bahwa pencarian dilakukan
semakin lama. 83 Khususnya, sejak 2008, permintaan dengan rata-rata lima atau
lebih banyak istilah telah meningkat sekitar 8%, sementara kueri memiliki panjang rata-rata
dari satu hingga empat istilah telah menurun sekitar 2%. Kemungkinan penjelasan tentang ini,
dengan asumsi tren ini terus berlanjut, adalah bahwa ketika Web semakin besar dan pengguna
menjadi
lebih berpengalaman, pencari lebih mampu mengekspresikan kebutuhan informasi mereka.
Analisis temporal dari log kueri menunjukkan bahwa pengguna menghabiskan lebih banyak
waktu antar
bertindak dengan mesin pencari di siang hari daripada di malam hari (520, 699).
Selain itu, jika kami menganalisis lalu lintas kueri dalam seminggu, kami melihat penurunan
yang nyata
pada hari Jumat dan puncak lalu lintas selama akhir pekan [66]. Analisis ini dilakukan
lebih dari log AOL pencarian di Amerika Serikat, jadi kami harapkan puncaknya
untuk bergerak sesuai dengan budaya para pencari.
Saat melakukan analisis topikal dari kategori yang dicari pengguna, di sana
mungkin juga perbedaan budaya tetapi secara keseluruhan, kategori yang berkaitan dengan gaya
hidup kita
seperti Hiburan, Belanja, Komputer, Tempat, Berita, Kesehatan, dan Dewasa
adalah yang paling populer (66, 53, 530). Menggabungkan analisis topikal dan temporal
mengungkapkan bahwa beberapa kategori berbeda dalam popularitas menurut waktu atau hari
hari dalam seminggu, dan ada efek musiman yang jelas dalam periode yang lebih lama
untuk beberapa kategori, terutama Liburan. Sangat menarik untuk dicatat bahwa banyak
pertanyaan
salah eja, dan banyak pertanyaan hanyalah URL ketika pengguna ingin menjangkau web
situs melalui mesin pencari daripada mengetiknya ke alamat browser
batang.
Sebuah garis penelitian yang berasal dari log kueri jangka panjang untuk dipelajari
dunia tempat kita hidup, digambarkan oleh Richardson [565]. Idenya adalah untuk melihat
bagaimana kueri pengguna individu berkembang seiring waktu dan berhubungan dengan kueri
lain. SEBUAH
korelasi antara, ucapkan kueri seperti "kopi" dan kueri referensi seperti
"Teh," akan memberi tahu kami jika pengguna yang tertarik dengan permintaan utama juga
cenderung
tertarik dengan permintaan referensi. Pengukuran lain yang bermanfaat adalah melihat
bagaimana popularitas kueri berubah seiring waktu, dan bagaimana minat pengguna berubah
lembur. Melacak kueri dalam waktu lama dapat berisi informasi berharga
yang bisa berguna untuk penelitian ilmiah.
Ketersediaan log mesin pencari sangat penting bagi para peneliti yang
sedang mempelajari pola pencari web. Dalam kebanyakan kasus, kumpulan data tersebut tidak
dirilis untuk publik karena masalah privasi dan perjanjian lisensi aset data
melekat pada penggunaannya.
Pada 4 Agustus 2006 AOL merilis file log yang berisi rincian 200
juta kueri dari lebih dari 650.000 penggunanya di Amerika Serikat
periode tiga bulan, dimaksudkan untuk tujuan penelitian. 84 Meskipun ada pengguna
dianonimkan dengan nomor unik, istilah kueri dalam log sangat terbuka,
dan terkadang berisi data identifikasi pribadi seperti jaminan sosial
jumlah. Pada 7 Agustus, AOL menghapus log dari akses publik karena mereka
pelanggaran privasi, tetapi sementara itu log dicerminkan pada beberapa
situs di Web dari mana mereka dapat diunduh. AOL meminta maaf
karena mengeluarkan data dan memecat peneliti yang merilis log dan miliknya
pengawas. Sebulan kemudian AOL memutuskan untuk membuat pos baru kepala privasi
petugas. Riwayat pencarian pribadi pengguna AOL menyebabkan kebingungan di
media dan bahkan mengilhami produksi teater yang disebut Pengguna 927 .
Rilis log ini telah menginspirasi penelitian tentang anonimisasi log kueri
[488], dan masih dianalisis oleh para peneliti meskipun ada kontroversi seputar
ing itu.
4.4.2 Sintaks Permintaan Mesin Pencari
Apa nilai tambah dari menggunakan sintaks kueri lanjutan? Jansen [328] telah
mempertimbangkan dampak dari menggunakan opsi pencarian lanjutan pada sepuluh hasil
teratas
kembali dari mesin pencari. Dia menganggap operator Boolean "DAN"
dan "ATAU" dengan makna intuisi mereka, pencocokan frasa dengan mengelilingi
kata kunci dalam frasa dengan tanda kutip ganda, dan operator plus "+", di mana
"+" di depan kata kunci seperti "catur" berarti Anda bersikeras bahwa masing-masing
halaman web hasil harus menyertakan istilah "catur." Hasilnya secara keseluruhan,
sekitar 6,6 dari sepuluh hasil pertama yang dikembalikan dari mesin pencari menggunakan
tidak ada sintaks kueri lanjutan, juga muncul dalam hasil sepuluh besar ketika maju
sintaks sedang digunakan. Jadi, pilihan Archie untuk menentukan kueri hanya sebagai daftar
kata kunci telah dibuktikan, karena sintaksis lanjutan tidak akan banyak berdampak
pada kemampuannya untuk menemukan informasi yang ia cari.
Penjelasan untuk hasil ini adalah cara mesin pencari beroperasi
dalam menentukan relevansi halaman web. Untuk sebagian besar mesin pencari, kueri
"Catur komputer" sama dengan "komputer DAN catur," jadi menambahkan "DAN"
operator antara kata kunci tidak ada bedanya. Juga, banyak pencarian
mesin mengartikan kata kunci seperti "catur" sebagai setara dengan "+ catur,"
jadi jika Anda mengetikkan kata kunci, Anda sebenarnya bersikeras untuk memasukkannya
semua hasil pada daftar sasaran. Sekarang, bagaimana dengan penggunaan "ATAU," katakan
dalam kueri
"Komputer ATAU catur"? Sebagian besar mesin pencari akan memberi peringkat halaman web
yang berisi
kedua kata kunci lebih tinggi dari satu halaman yang hanya berisi satu kata kunci, jadi
halaman yang menjawab pertanyaan "catur komputer" akan memiliki peringkat lebih tinggi dari
apa pun
halaman muncul di pertanyaan terpisah hanya dengan "komputer" atau hanya "catur."
Mengenai pencocokan frasa, kueri "catur komputer" menegaskan itu semua
halaman web yang dikembalikan mengandung frasa itu. Ini akan mengecualikan halaman web
yang mengandung "komputer" dan "catur" yang tidak tepat bersebelahan sebagai a
frasa. Secara umum, mesin pencari mempertimbangkan seberapa dekat istilah permintaan untuk
masing-masing
lainnya pada halaman dikembalikan. Jadi untuk permintaan "catur komputer," yang tidak
termasuk pencocokan frasa, mesin pencari memberikan peringkat lebih tinggi ke halaman yang
memiliki
kata kunci "komputer" dan "catur" lebih dekat satu sama lain. Jenis peringkat ini
aturan disebut pencocokan kedekatan . Misalnya, jika kueri adalah "catur komputer"
halaman yang memiliki frase "catur komputer" akan peringkat lebih tinggi dari halaman itu
hanya memiliki frasa "program komputer yang bermain catur" di mana kata kunci
"Komputer" dan "catur" jauh dari satu sama lain.
Hal lain yang perlu diperhatikan adalah urutan pengetikan kata kunci
ke dalam mesin pencari membuat perbedaan. Jadi, permintaan "catur komputer" adalah
berbeda dari permintaan "komputer catur," dalam arti bahwa mesin pencari akan
ambil urutan kata kunci dalam akun di peringkat akhir, lebih suka halaman web
yang menjaga urutan persyaratan seperti dalam kueri. Semua pernyataan di atas adalah
tidak 100% akurat, karena setiap mesin pencari memiliki kebiasaan sendiri, dan juga, terpisah
dari konten halaman, ada cara lain di mana mesin pencari mengukur
relevansi, misalnya melalui analisis tautan, yang dapat mengesampingkan yang diharapkan
perilaku saya baru saja diuraikan.
Itu tidak berarti bahwa semua sintaksis maju tidak berguna. Ada yang lain
operator yang menyediakan mesin pencari seperti operator minus “-,” di mana a
"-" di depan kata kunci seperti "jembatan" tidak termasuk halaman web yang mengandung
istilah "jembatan" dari daftar hasil. Fitur bermanfaat lainnya adalah membatasi tanggal
hasil sehingga, misalnya, hanya halaman web yang diperbarui selama terakhir
tahun dikembalikan, dan membatasi hasil mesin pencari ke web yang ditentukan
situs, yang sering berguna ketika Anda menjelajahi situs web tertentu.
4.4.3 Kata Kunci Pencarian Paling Populer
Tabel 4.2 menunjukkan lima kata kunci teratas yang ditemukan dalam log kueri, dari
studi yang disebutkan, tidak termasuk kata-kata yang sangat umum seperti "dari," "dan," dan
"The" yang disebut kata-kata berhenti . Seringnya muncul istilah "applet"
menonjol sebagai anomali (applet adalah program kecil yang berjalan di browser web).
Ternyata sebagian besar kueri yang berisi istilah ini diajukan ke
mesin pencari oleh program perangkat lunak daripada pengguna manusia.
Penelitian di mana penulis buku ini terlibat dalam [457], telah
melihat ke hubungan antara perilaku berselancar dan permintaan pengguna. Seharusnya
Archie mengirimkan kueri ke mesin pencari dan kemudian mengklik salah satu hasilnya
tautan yang disajikan kepadanya. Dalam hal ini, kami ingin tahu berapa banyak lagi tautan
Archie kemungkinan akan mengikuti. Ternyata rata-rata, pengguna hanya mengikuti 1,65
tautan tambahan. Jadi, meskipun permintaan pencari web sering tidak ditentukan,
pencari masih ingin memiliki hasil berkualitas tinggi di ujung jari mereka dan mengikuti
ini dengan navigasi sesedikit mungkin.
Untuk melihat apa yang dicari orang lain, mesin pencari menyediakan kami
indeks buzz, menyajikan informasi kepada kami seperti pencarian paling populer
untuk periode ini, berita utama, dan lebih umum, topik apa yang orang
tertarik di Web. 85 Ini mungkin hanya rasa ingin tahu tetapi saya bisa membayangkan
bahwa mereka yang kecanduan pencarian web dan berselancar sangat tertarik untuk mengetahui
apa yang populer saat ini.
Popularitas istilah dan tren pencarian juga dapat dimanfaatkan dengan lebih serius.
Salah satu contoh adalah bahwa mendeteksi aktivitas flu dalam suatu wilayah [254]. Jutaan
pengguna mencari informasi dan frekuensi yang berhubungan dengan kesehatan setiap minggu
pertanyaan terkait flu sangat berkorelasi dengan jumlah orang yang memiliki
gejala seperti influenza. Meskipun seseorang yang mencari "flu" mungkin tidak benar-benar
menjadi sakit, pola pencarian di suatu wilayah memberikan bukti kolektif yang membantu
memperkirakan tingkat keparahan flu di wilayah tertentu. Untuk menguji idenya, para peneliti
memproses ratusan miliar pertanyaan terakhir ke Google dalam waktu 5 tahun
jendela untuk menghasilkan model yang memantau wabah flu. Ditunjukkan bahwa
model yang dihasilkan dari pencarian Google memiliki korelasi tinggi dengan model
dihasilkan dari metode pengumpulan data tradisional.
78 PENDAHULUAN UNTUK MESIN PENCARIAN DAN NAVIGASI WEB
Penggunaan data lain dari Google Trends (www.google.com/trends) adalah untuk
mengukur aktivitas ekonomi saat ini di industri tertentu [147]. Jadi misalnya,
volume permintaan merek mobil tertentu selama minggu kedua bulan itu
semoga bermanfaat dalam memprediksi penjualan merek tersebut pada akhir bulan. Untuk
jelaskan cara kerja prediksi, perhatikan bahwa kueri diklasifikasikan menjadi kecil
jumlah kategori; jadi, misalnya, permintaan terkait mobil akan menjadi milik
kategori otomotif. Untuk kueri yang diberikan terdiri dari satu atau lebih istilah pencarian,
-nya indeks query adalah angka yang mewakili volume relatif bahwa permintaan dalam
diberikan wilayah pada titik waktu tertentu. Merencanakan indeks kueri dari waktu ke waktu
memberi
serangkaian waktu dari mana tren dapat dideteksi dan prediksi dibuat, menggunakan waktu
model peramalan seri [449]. Pendekatan ini untuk prediksi ekonomi jangka pendek
dalam deret waktu ekonomis ternyata bermanfaat di beberapa bidang termasuk mobil
penjualan, penjualan rumah, penjualan eceran, dan perilaku perjalanan. Apalagi para peneliti
menyimpulkan bahwa variabel Google Trends yang relevan cenderung mengungguli model itu
kecualikan prediktor ini.
4.5 ARSITEKTUR MESIN PENCARIAN
Jika Anda membuat mesin pencari, komponen apa yang Anda butuhkan dan bagaimana caranya
apakah Anda akan menghubungkan mereka bersama? Anda bisa berkonsultasi dengan Sergey
Brin dan Larry
Makalah seminal Page “Anatomi pencarian web hiperteksual skala besar
engine ”diterbitkan pada April 1998, sebelum Google didirikan akhir tahun itu
[105]. Saya akan memberi Anda jawaban yang disederhanakan, yang diberikan dalam arsip
diagram tekture ditunjukkan pada Gambar. 4.5. Komponen utama mesin pencari adalah
perayap, pengindeks, indeks pencarian, mesin pencarian, dan antarmuka pencarian.
Web
Indeks Pencarian
Pengindeks
Crawler
Mesin Pertanyaan
Cari Antarmuka
Seperti yang telah saya sebutkan, crawler web adalah program perangkat lunak itu
melintasi halaman web, mengunduhnya untuk pengindeksan, dan mengikuti hyperlink
yang direferensikan pada halaman yang diunduh; crawler web akan dibahas
secara rinci di bagian selanjutnya. Sebagai istilah, perayap web juga
dikenal sebagai laba - laba , pengembara atau robot perangkat lunak . Komponen kedua adalah
pengindeks yang bertanggung jawab untuk membuat indeks pencarian dari halaman web itu
terima dari perayap.
4.5.1 Indeks Pencarian
The indeks pencarian adalah gudang data yang berisi semua informasi pencarian
mesin perlu mencocokkan dan mengambil halaman web. Jenis struktur data yang digunakan
untuk
mengatur indeks dikenal sebagai file terbalik . Ini sangat mirip dengan indeks di
bagian belakang buku. Ini berisi semua kata yang muncul di halaman web yang dirayapi,
terdaftar dalam urutan abjad (ini disebut file indeks ), dan untuk setiap kata yang dimilikinya
daftar referensi ke halaman web di mana kata itu muncul (ini disebut
yang daftar postingan ). Pada tahun 1998 Brin dan Page melaporkan indeks pencarian Google ke
mengandung 14 juta kata, jadi saat ini pasti jauh lebih besar dari itu
jelas sangat jauh lebih kecil dari jumlah halaman web yang dilaporkan, yang
saat ini lebih dari 600 miliar. (Google melaporkan hal itu setelah membuang kata-kata itu
muncul kurang dari 200 kali, ada sekitar 13,6 juta kata unik di Google
indeks pencarian. 86 )
Pertimbangkan entri untuk "catur" di indeks pencarian. Terlampir pada entri tersebut
daftar posting semua halaman web yang berisi kata "catur"; misalnya,
entri untuk "catur" bisa
catur → [www.chess.co.uk, www.uschess.org,
www.chessclub.com, ... ]
Seringkali, lebih banyak informasi disimpan untuk setiap entri dalam indeks seperti
jumlah dokumen dalam daftar posting untuk entri, yaitu jumlah web
halaman yang berisi kata kunci, dan untuk setiap entri individu dalam file posting
kami juga dapat menyimpan jumlah kemunculan kata kunci di halaman web
dan posisi setiap kemunculan dalam halaman. Jenis informasi ini adalah
berguna untuk menentukan relevansi konten.
Indeks pencarian juga akan menyimpan informasi yang berkaitan dengan hyperlink di
database tautan terpisah , yang memungkinkan mesin pencari untuk melakukan hyperlink
analisis, yang digunakan sebagai bagian dari proses pemeringkatan halaman web. Tautannya
database juga dapat diatur sebagai file terbalik sedemikian rupa sehingga file indeksnya
diisi oleh URL dan daftar posting untuk setiap entri URL, yang disebut sumber
URL, berisi semua URL tujuan yang membentuk tautan antara sumber ini dan
URL tujuan. Database tautan untuk Web dapat digunakan untuk merekonstruksi
struktur web dan untuk memiliki jangkauan yang baik, file indeksnya harus berisi
miliaran entri. Ketika kami memasukkan daftar posting dalam perhitungan ukuran
86 Semua N-gram Kami Milik Anda, oleh A. Franz dan T. Brants, Agustus 2006. http: //
googleresearch.
dari tautan basis data, maka jumlah total entri dalam basis data akan menjadi
urutan besarnya lebih tinggi. Kompresi basis data tautan merupakan hal yang penting
masalah untuk mesin pencari, yang perlu melakukan analisis hyperlink yang efisien. Randall
et al.  [556] telah mengembangkan teknik kompresi untuk basis data tautan, yang mana
manfaatkan struktur Web. Teknik mereka didasarkan pada
pengamatan bahwa sebagian besar halaman web cenderung terhubung ke halaman lain di web
yang sama
situs, dan banyak halaman web di situs web yang sama cenderung menautkan ke perangkat
umum
halaman. Menyisir pengamatan ini dengan metode kompresi yang terkenal, mereka
telah berhasil mengurangi kebutuhan ruang hingga enam bit per hyperlink.
Teks yang dilampirkan ke hyperlink, disebut tautan (atau jangkar) teks , itu
diklik oleh pengguna setelah tautan, dianggap sebagai bagian dari web
referensi halaman itu. Jadi ketika kata seperti "catur" muncul di beberapa teks tautan,
maka daftar posting untuk kata itu akan berisi entri untuk URL tujuan
dari tautan.
4.5.2 Mesin Kueri
Mesin kueri adalah jantung algoritmik mesin pencari. Batin bekerja
dari mesin permintaan komersial adalah rahasia yang dijaga dengan baik, karena mesin pencari
benar paranoid, takut situs web yang ingin meningkatkan peringkat mereka
mengambil keuntungan dari algoritma yang digunakan mesin pencari untuk menentukan
peringkat
halaman hasil. Mesin pencari melihat manipulasi seperti itu sebagai spam, karena itu mengerikan
efek pada kualitas hasil yang disajikan kepada pengguna. (Spam biasanya
terkait dengan email yang tidak diminta juga dikenal sebagai email sampah , meskipun kata
spam awalnya berasal dari ham yang dibumbui dan mengacu pada produk daging kalengan.)
Tidak mudah untuk membedakan antara spam mesin pencari dan organik
optimisasi mesin pencari, di mana desain halaman web yang bagus dan sehat mengarah
mereka akan terlihat di hasil teratas mesin pencari untuk pertanyaan yang terkait
halaman; kami akan menguraikan cara kerja peringkat mesin pencari
algoritma di Bab 5. Cukuplah untuk mengatakan pada tahap ini bahwa beberapa masalah
tentang spamming mesin pencari harus diselesaikan di pengadilan.
Mesin permintaan menyediakan antarmuka antara indeks pencarian, pengguna,
dan Web. Mesin kueri memproses permintaan pengguna dalam dua langkah. Dalam
langkah pertama, mesin kueri mengambil dari informasi indeks pencarian tentang
halaman web yang berpotensi relevan yang cocok dengan kata kunci dalam permintaan
pengguna, dan
pada langkah kedua peringkat hasil dihasilkan, dari yang paling relevan
ke bawah. Algoritma peringkat menggabungkan relevansi konten dari halaman web (lihat
Bagian 5.1), dan langkah-langkah relevansi lainnya dari halaman web berdasarkan analisis tautan
(lihat Bagian 5.2) dan popularitas (lihat Bagian 5.3). Memutuskan cara menentukan peringkat
web
halaman berputar pada pemahaman kita tentang konsep apa yang "relevan" untuk a
pengguna, diberi kueri. Masalah dengan relevansi adalah bahwa apa yang relevan untuk satu
pengguna mungkin tidak relevan dengan yang lain. Singkatnya, relevansi, sebagian besar,
pribadi dan tergantung pada konteks dan tugas yang ada dalam pikiran pengguna. Mesin pencari
mengambil pandangan yang sangat pragmatis tentang relevansi dan terus-menerus mengubah
dan meningkatkan
algoritma peringkat mereka dengan memeriksa bagaimana peselancar mencari di Web; sebagai
contoh,
dengan mempelajari log kueri terbaru. Tentu saja, ada juga masalah personalisasi
dan sekali mesin pencari merambah ke wilayah ini, yang saya percaya tidak bisa dihindari,
persaingan untuk relevansi akan bergerak ke roda gigi yang lebih tinggi (lihat Bagian 6.4).
4.5.3 Antarmuka Pencarian
Setelah kueri diproses, mesin kueri mengirimkan daftar hasil ke pencarian
antarmuka , yang menampilkan hasil di layar pengguna. Antarmuka pengguna pro-
merekam tampilan dan nuansa mesin pencari, yang memungkinkan pengguna untuk
mengirimkan pertanyaan,
telusuri daftar hasil, dan klik pada halaman web yang dipilih untuk penjelajahan lebih
lanjut. Dari
Dari sudut pandang usability, penting agar pengguna dapat membedakan antara
tautan sored, yang merupakan iklan, dan hasil organik, yang diberi peringkat berdasarkan kueri
mesin. Sementara sebagian besar mesin pencari web telah memutuskan untuk pindah
tampilan portal web ke arah tampilan yang lebih sederhana dan lebih bersih yang dipelopori oleh
Google,
Beberapa dari mereka, terutama Yahoo dan MSN, mempertahankan tampilan portal rumah
mereka
halaman, menawarkan pengguna mereka berbagai layanan dengan harapan mengkonversi
mereka
pelanggan, terlepas dari penggunaan layanan pencarian inti mereka.
4.6 MERUMPANG WEB
Perayap web Google menjelajahi Web yang mencakup lebih dari satu triliun halaman web di
upaya spidering terus menerus. Secara berkala, Google memperbarui indeks pencariannya, 87
yang pada akhir 2009 didistribusikan di lebih dari 500.000 server di beberapa
cluster dan pada pertengahan 2008, secara geografis tersebar di 36 pusat data (lihat
Bagian 4.7 untuk lebih jelasnya).
Google menyimpan lusinan salinan indeks pencariannya di seluruh clusternya dan
selama tarian Google, yang merupakan periode waktu antara awal dan akhir
dari pembaruan indeks, beberapa server pasti akan memiliki versi lama
indeks, dan karenanya hasil pencarian akan bervariasi tergantung pada server dari mana
hasilnya diambil. Biasanya, tarian Google memakan waktu beberapa hari, dan periode ini
dianggap sebagai waktu terbaik bagi situs web untuk memperbarui konten web mereka
halaman. Begitu tarian selesai, Google memulai merangkak baru dalam ayunan penuh,
dan jika perayapan baru tidak memanen halaman web yang diperbarui, webmaster akan
melakukannya
harus menunggu satu bulan lagi sebelum Google akan memiliki salinan mereka
situs Periode dansa Google juga merupakan waktu ketika Google memperkenalkan tweak
ke mesin kueri, sehingga webmaster sangat ingin mengetahui peringkat terbaru
dari situs mereka untuk mengoptimalkannya sebelum tarian berikutnya. 88
Google dan mesin pencari lainnya terus merayapi Web dan
pada 2008, Google sudah memproses ulang grafik web setiap hari. 89
Meskipun pembaruan lebih sering terjadi hari ini, webmaster dan pencarian
pengoptimal mesin masih melaporkan perubahan besar yang terjadi sebagai akibat dari
Google menari ketika terdeteksi.
Perayap web menjelajahi halaman web pengumpul Web, yang diteruskan ke
pengindeks untuk memperbarui indeks pencarian. Jika Web itu statis dan tidak ada yang
konten yang pernah berubah, mesin pencari hanya perlu menjelajah Web sekali.
Tapi seperti yang kita tahu, Web terus berkembang dengan halaman-halaman baru muncul
dan yang lama berubah atau hilang sama sekali. Karena ukuran
Web dan pertumbuhannya, mesin pencari terlibat dalam perjuangan berat untuk menutupi
sebanyak mungkin Web, dan seperti yang telah saya tunjukkan, cakupan adalah yang utama
pentingnya mesin pencari sebagai prasyarat untuk kualitas dan relevansi.
4.6.1 Algoritma Perayapan
Algoritma dasar crawler berfungsi sebagai berikut [528] (Gbr. 4.6): crawler
mulai dari daftar URL awal untuk dikunjungi. Set benih tidak hanya mengandung setidaknya
satu URL dari komponen terbesar yang terhubung dengan kuat dari grafik web, sehingga
untuk dapat menjangkau halaman web sebanyak mungkin, tetapi juga harus mengandung URL
dari bagian lain dari Web untuk menutupi halaman yang tidak dapat dijangkau dari inti. Baik
set benih dapat diperoleh dari direktori seperti Yahoo atau Open Directory,
sementara mesin pencari mapan mendasarkan set benih mereka pada URL yang sudah ada di
URL mereka
indeks pencarian. Daftar URL yang digunakan oleh perayap adalah dinamis; sekali halaman
dikunjungi, dihapus dari daftar dan setelah tautan pada halaman diproses
Pilih URL
untuk mengunjungi
Daftar URL untuk Dikunjungi
Ambil halaman
Halaman indeks
Tambah baru
URL ke daftar
diidentifikasi, mereka ditambahkan ke daftar URL yang tersisa untuk dikunjungi. Proses
biasanya berakhir setelah sejumlah halaman web diindeks atau a
waktu tertentu telah berlalu. Dalam beberapa kasus di mana tujuan perayapan jelas, untuk
contoh untuk merayapi daftar halaman yang tanggalnya dalam indeks pencarian telah
kedaluwarsa, the
crawl dihentikan ketika misi laba-laba selesai.
Perayap harus menyelesaikan beberapa masalah untuk menjalankan tugasnya
efisien. Salah satu masalah penting adalah mendeteksi duplikat halaman web yang dimiliki
URL yang berbeda (alamat halaman web). Ini dapat dilakukan dengan memetakan setiap URL ke
string kompak yang merepresentasikan konten pada halaman, dan membandingkan konten
string dari setiap URL baru ke yang sudah ada [491]. Masalah penting lainnya adalah
masalah halaman web mana yang harus dikunjungi terlebih dahulu.
Masalah terkait adalah kualitas halaman web yang diambil. Pertama, ada
masalah sintaksis: perayap akan mengalami masalah pengindeksan halaman yang memiliki
kesalahan
seperti URL yang tidak ditentukan secara spesifik. Lalu ada masalah halaman HTML dinamis,
memiliki skrip tertanam yang dapat memodifikasi tidak hanya tampilan halaman web tetapi juga
juga isinya, tergantung pada peristiwa yang terjadi di browser saat halaman
sedang dilihat. Perayap akan menemukan laman HTML dinamis sulit ditafsirkan dan
oleh karena itu, dapat mengabaikannya. Ada masalah lain yang terkait dengan halaman tidak
standar
format yang sulit dipahami oleh perayap, itulah sebabnya perancang web
mendorong menggunakan HTML standar sebanyak mungkin dan sadar akan
fakta bahwa halaman web yang tidak ramah crawler mungkin tidak diindeks oleh mesin pencari.
Dalam penjelajahan pertama kali , URL diambil dari daftar sesuai urutan
mereka dimasukkan ke dalam daftar; dalam terminologi ilmu komputer urutan seperti itu
disebut First-In-First-Out atau FIFO . Metrik lain yang digunakan untuk memandu perayapan
mungkin
mengandalkan struktur tautan halaman, misalnya URL yang memiliki lebih banyak hyperlink
menunjuk mereka mungkin diprioritaskan, yang lebih penting bagi orang populer
halaman. Metrik lain mungkin dipandu oleh domain; misalnya akhir URL
di ".com" mungkin dianggap lebih penting daripada URL lain dalam daftar. Najork
dan Wiener [492] telah menunjukkan bahwa ketika menggunakan metrik tautan untuk
mengevaluasi
kualitas sebuah halaman, strategi luas pertama sangat kompetitif, efisien, dan
menemukan halaman berkualitas tinggi di awal perayapan.
Suatu jenis crawler yang memfokuskan perhatian mereka pada topik tertentu disebut
crawler terfokus . Dalam bentuknya yang paling sederhana, perayap terfokus didorong oleh kueri
(yaitu, daftar kata kunci) dan keputusan, URL mana yang akan dipilih, adalah
berdasarkan kesamaan tekstual antara permintaan dan konten web
halaman yang dituju oleh URL. Jadi crawler terfokus memberi peringkat URL dalam daftar
dan memilih peringkat tertinggi untuk dijelajahi terlebih dahulu; strategi ini juga dikenal sebagai
a
strategi terbaik-pertama .
Namun masalah lain berkaitan dengan penjadwalan. Strategi naif adalah menjadwalkan
perayapan baru Web segera setelah perayapan saat ini selesai, dan ke
perbarui indeks pencarian setelah setiap perayapan. Jenis pengaturan ini mengarah ke
keributan terkait tarian Google, jadi perbarui indeks secara terus-menerus (seperti
Google dan mesin pencari lainnya kemungkinan besar melakukan) daripada memiliki
Selesaikan pembaruan setelah perayapan selesai, harus mengurangi efek yang terkait dengan
pembaruan indeks.
4.6.2 Menyegarkan Halaman Web
Masalah sulit lainnya adalah seberapa sering crawler harus me-refresh halamannya. Itu
pendekatan paling sederhana adalah mengunjungi kembali semua halaman pada frekuensi yang
sama, terlepas dari
bagaimana perubahan halaman dan pendekatan yang lebih canggih adalah dengan mengunjungi
kembali halaman itu
berubah lebih sering, lebih sering. Dalam praktiknya, mesin pencari akan merayapi situs
dengan konten yang sangat dinamis seperti situs berita dan situs e-commerce lebih banyak
sering daripada situs yang jarang berubah. Fetterly et al. [220] telah menunjukkan itu
meskipun sebagian besar halaman web tidak mengalami banyak perubahan, halaman web yang
lebih besar cenderung
berubah lebih sering dan pada tingkat yang lebih besar daripada yang lebih kecil. Itu juga
ditampilkan
perubahan itu lebih sering dan luas untuk halaman dengan domain tingkat atas
.com atau .net, daripada untuk halaman dari domain lain seperti .edu dan .gov.
Ternyata, perubahan sebelumnya ke halaman web adalah indikator yang baik untuk masa depan
perubahan, yang menggembirakan untuk tujuan prediksi.
4.6.3 Protokol Pengecualian Robot
Crawler harus sopan. Maksud kami, mereka harus menyebarkan kunjungan mereka
ke situs web tertentu selama periode waktu, sejak membombardir situs web
dengan permintaan HTTP (protokol untuk meminta halaman web dari situs) di dalamnya
interval pendek akan memperlambat situs web untuk pengguna manusia. Situs web yang
diinginkan
untuk mengecualikan crawler dari mengindeks beberapa halaman web mereka dapat
menunjukkan ini
preferensi melalui protokol pengecualian robot. 90 Ini dilakukan dengan menyimpan teks
file yang disebut robots.txt di direktori root situs web. Misalnya,
teks berikut menunjukkan bahwa semua perayap tidak boleh mengunjungi URL apa pun yang
dimulai dengan
“/ Docs” atau “/ logs”. "*" Menunjukkan bahwa pengecualian terkait dengan semua perayap.
Jika karena alasan tertentu situs web hanya ingin mengecualikan Googlebot (nama
Perayap Google) atau Slurp (nama perayap Yahoo) dari URL ini, kemudian
"*" diganti oleh Googlebot atau Slurp. Daftar perayap web aktif disimpan
dalam database di www.robotstxt.org/wc/active.html.
Agen pengguna: *
Disallow: / docs
Disallow: / logs
Rasa ingin tahu yang diamati oleh Greg Notess dari Search Engine Showdown selama
pertengahan 2003, adalah bahwa Google mengindeks file robots.txt. 91 Apakah ini
disengaja atau kesalahan tidak diketahui.
File robots.txt juga dapat digunakan untuk menerbitkan URL melalui
arahan peta situs. Sitemaps (www.sitemaps.org) adalah protokol XML itu
memungkinkan webmaster untuk menginformasikan mesin pencari tentang halaman web di situs
mereka itu
tersedia untuk merangkak [595]; lihat juga Bagian 6.2.1. Peta Situs juga termasuk
metadata tambahan untuk setiap URL, termasuk tanggal halaman terakhir diubah,
seberapa sering halaman cenderung berubah, dan prioritas relatif halaman
di dalam situs.
Peta Situs adalah cara yang relatif mudah bagi webmaster untuk menerbitkan URL di
situs mereka dan pada 2009, sekitar 35 juta situs web menerbitkan peta situs
termasuk beberapa miliar URL. Misalnya, peta situs Amazon.com termasuk
sekitar 20 juta URL. Sebagai contoh lain, situs media dapat memanfaatkan
peta situs untuk menerbitkan berita harian, seperti halnya CNN.com, yang menerbitkan berita
harian
di Peta Situs 200 hingga 400 URL yang berubah beberapa kali setiap hari.
Perayap web dapat memasukkan peta situs ke dalam jadwal mereka untuk melengkapi
penemuan halaman web mereka. Mendeteksi peta situs melalui robots.txt
file, dan mengunduhnya tidak mahal. Di sisi lain, hanya mengandalkan
peta situs tidak cukup, karena mereka tidak cukup andal dan beberapa bersifat spam.
Meskipun demikian mereka secara menguntungkan dapat diintegrasikan ke dalam proses
penemuan dan
Kebijakan pemesanan URL perayap mesin pencari.
4.6.4 Jebakan Laba-Laba
"Spider traps" adalah skrip yang disematkan dalam URL yang secara dinamis dapat
menghasilkan a
sejumlah besar URL merujuk ke halaman yang sama. Salah satu jenis spider trap adalah
URL dinamis, yang merupakan alamat web yang berisi tanda tanya diizinkan-
ing kueri yang akan disematkan di URL. Misalnya, jika Anda memasukkan URL
www.google.com/search?q = dynamic + url, ke dalam browser Anda, maka itu akan
menampilkan
mainkan halaman hasil dari Google untuk kueri "url dinamis." Saat crawler
menemukan perangkap laba-laba yang menghasilkan halaman web dengan jumlah besar
URL, laba-laba akan menambahkan semua tautan ini ke daftar halaman yang akan dikunjungi
dan
Tally terjebak dalam loop yang tidak disengaja, menghabiskan sumber daya komputasi.
Contoh perangkap laba-laba yang terkenal adalah URL dinamis yang menghasilkan web
halaman dengan kalender yang penuh dengan tautan untuk setiap tanggal, semuanya menunjuk
ke URL yang sama.
4.7 APA YANG DIPERLUKAN UNTUK MEMBERIKAN GLOBAL
LAYANAN PENCARIAN?
Bagaimana cara mesin pencari web memberikan layanan yang efisien dan berkualitas tinggi
jutaan peselancar, menabrak servernya miliaran kali sehari, dan di atas semua ini
mempertahankan indeks baru di lingkungan yang terus menerus berubah? Baik Google
dapat melakukannya, dan dalam artikel yang diterbitkan di IEEE Micro beberapa insinyur
Google
mengungkapkan beberapa bahan dari sistem mereka [58].
Pada tahun 2003, kluster komputer Google menggabungkan lebih dari 15.000 PC standar,
menjalankan in-house mengembangkan perangkat lunak yang tahan terhadap kesalahan. Pada
akhir 2009 angka ini
meningkat menjadi sekitar 500.000 yang merupakan indikator pertumbuhan Google yang luar
biasa
dalam daya komputasi dan kemampuannya untuk mengindeks dan menyimpan miliaran halaman
web dan
sejumlah besar multimedia seperti video YouTube. Google standar
server memiliki 16 GB RAM dan 2 TB ruang disk. 92
Arsitektur ini jauh lebih murah daripada menggunakan server berkinerja tinggi
dan juga jauh lebih efisien menurut para insinyur Google. Keandalan dari
sistem dicapai pada tingkat perangkat lunak dengan mereplikasi layanan di banyak
mesin dan secara otomatis mendeteksi dan menangani kegagalan. Dengan banyak PC,
efisiensi energi adalah faktor kunci lain, seperti konsumsi daya dan pendinginan
penting untuk skala operasi ini.
Bagaimana cara kueri Google dilayani? Untuk menyediakan kapasitas untuk permintaan besar
lalu lintas, layanan Google terdiri dari beberapa cluster yang didistribusikan di seluruh
dunia. Setiap
Cluster memiliki ribuan PC, distribusi yang melindungi Google dari bencana
kegagalan. (Pada pertengahan 2008, server Google didistribusikan di seluruh dunia dalam 36
Pusat Data. 93 )
Ketika kueri dikeluarkan, sebuah cluster dipilih untuk melayani kueri sesuai
untuk kedekatan geografis dan sekali dipilih, permintaan diproses secara lokal itu
gugus. Eksekusi query terdiri dari dua fase utama.
Pada fase pertama, server indeks berkonsultasi dengan indeks terbalik untuk mencocokkan
masing-masing
kata kunci dalam kueri ke daftar halaman web. Set halaman yang relevan untuk
kueri ditentukan dengan memotong daftar ini, satu untuk setiap kata kunci, lalu
menghitung skor setiap halaman yang relevan untuk menentukan peringkatnya. Itu
hasil yang dikembalikan pada tahap ini adalah daftar pengidentifikasi dokumen.
Pada fase kedua, daftar pengidentifikasi dokumen digunakan untuk mengkompilasi
halaman hasil yang dikirimkan ke browser pengguna. Ini ditangani oleh dokumen
server dan melibatkan penghitungan judul, URL, dan ringkasan masing-masing yang relevan
halaman web. Untuk menyelesaikan eksekusi, sistem pemeriksa ejaan dan penayangan iklan
dikonsultasikan.
Kedua fase ini sangat paralel, seperti data, yang terdiri dari banyak
petabyte dalam ukuran (petabype sama dengan 1000 TB dan satu terabyte sama dengan 1000
GB), didistribusikan di beberapa server. Secara keseluruhan, Google menyimpan lusinan
salinan indeks pencariannya di seluruh kelompoknya. Jika bagian dari gugus turun untuk
beberapa
Alasannya, ia akan menggunakan mesin dari cluster lain untuk menjaga layanan tetap beroperasi,
dengan biaya mengurangi kapasitas keseluruhan sistem. Salah satu aksioma dari
Layanan Google adalah bahwa layanan itu harus berkelanjutan dan efisien setiap saat.
Pembaruan indeks dilakukan secara offline offline dan kemudian cluster
diperbarui satu per satu; lihat Bagian 4.6, di mana kami menggambarkan tarian Google,
yang merupakan nama yang diciptakan untuk saat indeksnya sedang dalam proses menjadi
diperbarui.
Mengoperasikan ribuan PC menimbulkan administrasi yang signifikan dan
biaya pemeliharaan, tetapi ini dapat dikelola karena sejumlah kecil aplikasi
tions berjalan pada masing-masing dari mereka. Biaya tambahan dikeluarkan untuk pendinginan
khusus-
ing, yang diperlukan untuk cluster, karena tingkat konsumsi daya yang tinggi.
Prinsip utama desain arsitektur Google adalah membeli
CPU dengan rasio harga-ke-kinerja terbaik, mengeksploitasi paralelisme masif oleh
distribusi dan replikasi, dan menggunakan perangkat lunak yang sangat andal dan dapat
diskalakan untuk
semua aplikasi, yang semuanya dikembangkan di rumah.
Arsitektur terdistribusi Google didasarkan pada tiga komponen: Google
Sistem File (GFS) [251], algoritma MapReduce [181], dan BigTable
sistem basis data [134].
GFS adalah sistem file yang sangat besar, sangat digunakan, didistribusikan, dan toleran
terhadap kesalahan
yang dirancang untuk bekerja dengan aplikasi Google. GFS mendukung cluster, di mana
setiap cluster memiliki master tunggal dan beberapa chunkservers, dan diakses oleh
banyak klien. File dibagi menjadi potongan dengan ukuran tetap (64MB), dan
chunkservers menyimpan potongan pada disk lokal. Untuk keandalan, setiap potongan
direplikasi
pada beberapa chunkservers. Metadata dikelola oleh master, yang mengontrol
kegiatan seluruh sistem dengan berkomunikasi dengan chunkservers. Tidak ada
caching data file pada chunkservers atau klien. Keterlibatan tuan
dalam membaca dan menulis adalah minimal untuk menghindari kemacetan. Diharapkan bahwa
lalu lintas didominasi oleh membaca dan menambahkan sebagai ganti dari menulis yang
menimpa
data yang ada, membuat pengecekan konsistensi lebih mudah.
MapReduce adalah model pemrograman yang dipinjam dari program fungsional-
untuk memproses set data besar pada sistem file terdistribusi seperti GFS. SEBUAH
perhitungan ditentukan dalam hal peta dan mengurangi fungsi dan komputasi
tion didistribusikan secara otomatis di seluruh cluster. Perhitungan bisa dilakukan
keluar secara paralel karena urutan peta individual dan mengurangi operasi tidak
efek output, dan meskipun data baru dibuat, data yang ada tidak ditimpa-
sepuluh. Operasi peta mengambil koleksi pasangan kunci / nilai dan menghasilkan satu
atau lebih banyak output kunci / nilai menengah untuk setiap pasangan input. Pengurangan
operasi
menggabungkan pasangan kunci / nilai perantara untuk menghasilkan nilai output tunggal untuk
setiap kunci. Misalnya, input ke peta bisa berupa URL (kunci) dan dokumen
teks (nilai). Output menengah dari peta bisa berupa pasangan kata (kunci) dan
kemunculan (nilai), yang akan menjadi satu untuk setiap kata, jadi dalam hal ini, peta
pisahkan dokumen menjadi kata-kata dan mengembalikan satu untuk setiap kejadian. Kurangi
keinginan
lalu gabungkan nilai-nilai dari pasangan untuk setiap kata dan kembalikan pasangan untuk
masing-masing
kata dengan hitungannya di dokumen. Lebih dari 10.000 program MapReduce
telah diterapkan di Google, dan rata-rata 100.000 pekerjaan MapReduce
dieksekusi setiap hari, memproses lebih dari 20 PB data per hari [181].
Hadoop (http://hadoop.apache.org) adalah sistem file terdistribusi open-source
untuk set data yang sangat besar, terinspirasi oleh GFS dan MaReduce [373]. Yahoo telah
menjadi
kontributor besar untuk Hadoop dan telah menggunakannya dalam aplikasi mereka. Cloudera
(www.cloudera.com) adalah perusahaan baru yang berpusat pada layanan dukungan dan
konsultasi
untuk pengguna perusahaan Hadoop. Ini memiliki distribusi Hadoop sendiri, membuatnya
mudah bagi pengguna untuk menginstal dan menggunakan perangkat lunak. Ini juga merilis
grafis
antarmuka berbasis browser ke Hadoop memungkinkan manajemen cluster yang lebih mudah.
BigTable [134] adalah sistem penyimpanan terdistribusi yang dirancang oleh Google untuk skala
andal untuk set data yang sangat besar, dengan petabyte data disajikan lebih dari ribuan
mesin. BigTable digunakan secara luas dalam aplikasi Google termasuk indeks web-
ing, Google Earth, Google Finance, dan Google Analytics.
Data dalam BigTable disusun bersama tiga dimensi: kunci baris, kolom
kunci, dan stempel waktu, yang secara bersama-sama mengidentifikasi sel. Tertentu
jenis BigTable adalah tabel web, di mana kunci baris adalah URL, kunci kolom
fitur halaman web, dan sel adalah konten halaman. Baris dengan berturut-turut
tombol disusun dalam tablet. Misalnya, dalam tabel web semua baris dari
domain yang sama dapat membentuk tablet. Kolom dikelompokkan ke dalam keluarga
kolom. Untuk
Misalnya, "jangkar" mungkin keluarga dan setiap jangkar tunggal akan memenuhi syarat oleh
nama situs rujukannya, dan nilai sel akan menjadi teks jangkar. Waktu
perangko memungkinkan menyatakan versi berbeda dari data yang sama.
BigTable menggunakan GFS untuk menyimpan datanya, dan dapat digunakan dengan
MapReduce untuk
menjalankan komputasi paralel skala besar pada tabel. Cluster BigTable, yaitu satu set
proses yang menjalankan perangkat lunak BigTable, telah diproduksi di Google
sejak pertengahan 2005 dan telah memakan waktu sekitar 7 tahun untuk merancang dan
mengembangkan. Sampai akhir
2006, ada lebih dari 60 proyek di Google menggunakan BigTable [134]. Sebuah open-
versi sumber BigTable, yang disebut HBase, telah diimplementasikan di atas Hadoop
[688]. Penyimpanan database terdistribusi open-source lain, dimodelkan setelah BigTable,
adalah Hypertable (www.hypertable.org); Hipertensi digunakan oleh pencarian Cina
mesin Baidu.
Konsep BigTable muncul dari kebutuhan untuk menyimpan sejumlah besar
tributed data dalam format tabel lebar dengan sejumlah besar kolom dan jarang
baris yang dihuni, yaitu, di mana sebagian besar bidang adalah nol, dan di mana skema, itu
adalah, penggunaan kolom, dapat berkembang dari waktu ke waktu [688]; lihat juga
Pustaka 419. Selain itu,
karena banyaknya kolom, pencarian kata kunci adalah saat yang paling tepat
menanyakan tabel lebar. Inilah alasan mengapa BigTable dirancang dan diimplementasikan
in-house daripada lebih dari sistem manajemen database relasional tradisional.
BAB RINGKASAN
• Pencarian web tipikal berbasis kata kunci, tanpa menggunakan sintaksis lanjutan.
Selain hasil organik, hasil kueri sering mengandung perbedaan-
tautan yang disponsori. Untuk setiap hasil, mesin pencari menampilkan dinamis
ringkasan yang menyoroti persyaratan kueri dan informasi lain seperti
URL hasil, ukurannya, dan mungkin kategorinya. Pengguna juga bisa
memiliki akses ke salinan hasil yang di-cache, dan mungkin dapat melihat yang serupa
halaman.
• Mesin pencari adalah penjaga gerbang informasi terkini dari Web sejak saat itu
sebagian besar, kami melihat Web melalui lensa mesin pencari. Ada sebuah
suara yang tumbuh mendukung regulasi mesin pencari, karena mungkin
bias komersial dari indeks mereka. Ini juga melibatkan proposal untuk pencarian
mesin untuk mengungkapkan algoritma mereka, meskipun ini tidak mungkin terjadi
dalam praktiknya, karena webmaster terus mencoba menggunakan pengetahuan tersebut untuk
memanipulasi peringkat mesin pencari untuk keuntungan mereka.
• Tiga pesaing utama dalam perang mesin pencari saat ini adalah Google,
Yahoo, dan Bing. Pemain pertama Google, telah meningkatkan standar pencarian
berkualitas dan mendominasi ruang pencarian dalam beberapa tahun terakhir. Bagian
pemain ond, Yahoo, adalah perusahaan veteran dot-com yang telah meningkatkannya
kemampuan pencarian dengan serangkaian akuisisi teknologi mesin pencari,
dan terus menyediakan banyak layanan terkait internet selain pencarian.
Pemain ketiga, Bing, yang merupakan lengan pencarian Microsoft, berkomitmen untuk
melakukannya
terus mengembangkan teknologi pencarian miliknya dan menggunakan Microsoft
kontrol desktop untuk mendapatkan kendali atas ruang pencarian.
• Statistik dari studi log kueri mesin pencari mengungkapkan bahwa rata-rata
jumlah istilah per kueri hanya lebih dari dua, jumlah rata-rata kueri
per sesi juga sekitar dua, jumlah rata-rata halaman hasil yang dipindai
antara satu dan dua, dan dalam kebanyakan kasus, pengguna tidak menggunakan tingkat lanjut
sintaks kueri. Mesin pencari melacak permintaan populer untuk mengikuti pencarian
pola dan tren.
• Arsitektur mesin pencari termasuk crawler, pengindeks, pencarian
indeks, mesin pencarian, dan antarmuka pencarian. Perayap adalah program perangkat lunak
yang melintasi Web dengan mengikuti tautan dan mengunduh halaman web itu
dikirim ke pengindeks, yang menciptakan indeks pencarian. Indeks pencarian
diatur sebagai struktur data file terbalik, yang dapat disamakan dengan a
indeks buku. Informasi tentang hyperlink disimpan dalam basis data tautan,
memberikan akses cepat ke outlink halaman web melalui URL-nya. Kueri
mesin memproses kueri dengan terlebih dahulu mengambil informasi tentang yang relevan
halaman web dari pencarian dan kemudian menggabungkan informasi ini untuk memberikan
daftar peringkat halaman hasil. Antarmuka pencarian bertanggung jawab untuk menampilkan
hasil pada browser pengguna.
• Merangkak Web adalah tugas yang sangat besar, yang merupakan pusat fungsi
mesin pencari. Agar dapat terus merayapi miliaran halaman, web
crawler harus secara efisien menyelesaikan masalah seperti berurusan dengan yang berbeda
format halaman, mendeteksi halaman duplikat, memilih tautan untuk diikuti selanjutnya
selama merangkak, dan memutuskan seberapa sering untuk me-refresh halaman yang telah
dikunjungi.
Protokol pengecualian robot adalah mekanisme penting yang digunakan web
situs dapat mengecualikan crawler dari mengindeks halaman web yang ditentukan.
• Memberikan layanan pencarian web global 24/7 yang mampu menjawab miliaran
pertanyaan per hari adalah tugas yang luar biasa. Ini membutuhkan perusahaan distribusi skala
besar
menempatkan kekuatan, replikasi indeks, dan sangat andal dan terukur
perangkat lunak.
• Arsitektur terdistribusi Google didasarkan pada tiga komponen: Google
Sistem File (GFS), algoritma MapReduce, dan database BigTable
sistem. GFS adalah file yang sangat besar, sangat digunakan, didistribusikan, dan toleran
terhadap kesalahan
sistem, yang dirancang untuk bekerja dengan aplikasi Google. MapReduce
adalah model pemrograman untuk memproses set data besar pada file yang didistribusikan
sistem. BigTable adalah sistem file terdistribusi yang dirancang untuk skala sangat besar
set data.

Anda mungkin juga menyukai