Tugas STBI

NAMA : LIA YULIANA / J2F009040 SISTEM TEMU BALIK INFORMASI
Search engine Mesin pencari atau adalah program komputer yang dirancang untuk melakukan
pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp,publikasi milis, ataupun news
group dalam sebuah ataupun sejumlah komputer peladen dalam suatu jaringan.
Search engine merupakan perangkat pencari informasi dari dokumen-dokumen yang tersedia. Hasil
pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi
ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian
bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas
lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan
dalam suatu basisdataataupun direktori web.
Teknologi Mutakhir google yaitu Mesin cari dan PageRank. Seperti yang kita bahas sebelumnya,
pencetus Pagerank adalah Larry Page, dia membuat Pagerank dengan memanfaatkan tautan antar web.
Bahasa mudahnya semakin banyak web itu dikunjungi maka Pageranknya akan semakin tinggi, semakin keatas
hasil pencariannya. Seandainya anda mencari sesuatu maka hasilnya akan menghasilkan beratus ratus bahkan
berjuta-juta halaman, normalnya orang hanya akan melihat halaman pertama, dan mendahulukan yang berada
diurutan pertama. Itulah Page Rank. Diambil dari nama belakang penemunya Pagerank bisa diartikan ranking
berdasarkan Larry Page, atau bisa juga diartikan dengan Peringkat halaman(Page = halaman, rank= peringkat).


Anatomy of a search engine : Infrastructure of Google

Architecture of the search engine :
Crawler
Ada beberapa crawler didistribusikan, mereka mengurai halaman dan ekstrak link dan kata kunci.
URL Server
Menyediakan untuk crawler daftar URL untuk memindai.
Store Server
Crawler mengirimkan data yang dikumpulkan dan dilayani Store. Ini kompres halaman dan
menempatkan mereka dalam repositori. Setiap halaman disimpan dengan identifier, docID a.
Repositori
Berisi salinan halaman dan gambar, yang memungkinkan perbandingan dan caching.
Indexer
Halaman itu indeks untuk ber disediakan untuk SERPs (hasil). Ini decompress dokumen dan
mengubahnya menjadi set kata-kata yang disebut "hits". Ini mendistribusikan hit antara set "barel". Ini
memberikan indeks sebagian diurutkan. Hal ini juga membuat daftar URL pada setiap halaman. Hit
berisi informasi berikut: kata, posisinya dalam dokumen, ukuran font, kapitalisasi.
Barrels
Barel adalah database yang mengklasifikasikan dokumen dengan docID. Mereka diciptakan oleh
pengindeks dan digunakan oleh sortasi.
Anchors
Bank of anchors dibuat oleh pengindeks berisi link internal dan teks yang terkait dengan masing-masing
link.


URL Resolver
Dibutuhkan isi acnchor mengubah URL relatif menjadi alamat absolut dan menemukan atau
menciptakan sebuah docID. Itu membangun indeks dokumen dan database link.
Doc Indeks
Berisi teks relatif terhadap masing-masing URL.
Links
Database link asosiasi masing-masing dengan docID (dan sehingga untuk dokumen nyata di Web).
PageRank
Perangkat lunak ini menggunakan database link untuk menentukan PageRank dari setiap halaman.
Sorter
Berinteraksi dengan barel. Ini termasuk dokumen rahasia oleh docID dan menciptakan daftar terbalik
diurutkan berdasarkan wordID.
Lexicon
Sebuah perangkat lunak yang disebut DumpLexicon mengambil daftar yang disediakan oleh sortasi
(diklasifikasikan oleh wordID), dan juga termasuk leksikon diciptakan oleh pengindeks (set kata kunci
dalam setiap halaman), dan menghasilkan leksikon baru untuk pencari.
Searcher
Ini berjalan pada web server di datacenter, menggunakan leksikon dibangun oleh DumpLexicon dalam
kombinasi dengan indeks diklasifikasikan oleh wordID, dengan mempertimbangkan PageRank, dan
menghasilkan halaman hasil.

Cara Kerja Rumus dan Formula PageRank Google
1. Untuk setiap website ada sejumlah tertentu website lain yang menempatkan sebuah hyperlink ke
website yang bersangkutan.
2. Setiap website memiliki sebuah PageRank.
3. Link dari website B ke website A dihitung sebagai satu suara dari B unuk A. Seperti dalam
pemunggutan suara.
4. Selain itu, PageRank website B member bobot suara untuk A. Semakin tinggi PageRank website
B, semakin baik.
5. Faktor-faktor lainnya, berapa banyak link terdapat di website B. Semakin sedikit jumlahnya,
semakin baik untuk PageRank website A
6. Jumlah semua PageRank sama dengan jumlah semua dokumen di Internet. Jadi, PageRank adalah
pembobotan sebuah dokumen di Internet secara keseluruhan yang tercatat.

PageRank dihitung untuk setiap website, bukan untuk seluruh tawaran website. Oleh karena itu,
sebuah artikel tertentu di webserver bisa jadi mendapat PageRank lebih tinggi dari websitenya sendiri.
Sebagai rumus seluruh algoritma PageRank tampak sebagai berikut:

PR(A)=(1-d)+d(PR(T1)/C(T1)++PR(Tn)/C(TN))


Berikut penjelasan rumus di atas: PageRank website A adalah jumlah PageRank website T1
hingga Tn, masing-masing di bagi dengan jumlah link pada website yang bersangkutan. Selain itu, ada
faktor peredam sebuah elemen sangat penting yang selanjutnya masih akan berperan.
Prinsip PageRank dapat diperjelas. Anggaplah seluruh web hanya terdiri atas empat website
A,B, C, dan D. Dalam contoh masing-masing memiliki PageRank awal 1. Jumlahnya sama dengan
jumlah website. Dalam contoh pertama website B, C, dan D masing-masing memiliki sebuah link ke
website A dan tidak ada link lainnya. Apabila factor peredam diabaikan, hasilnya adalah rumus:

PR(A)=1/1+1/1+1/1

PageRank website A adalah 3. Contoh yang lebih rumit : Website A memiliki link ke website B
dan C. B hanya memiliki sebuah link ke A, C memiliki link ke A, B, dan D. D hanya memiliki link ke
B. Rumus untuk A akan menjadi:
PR(A)=1/1+1/3
Link dari B bernilai 1, sementara dri C hanya 1/3 dengan jumlah links 3. Hasilnya adalah 1,33.
Untuk B:
PR(B)=1/2+1/3+1/1
Dibulatkan hasilnya adalah 1,83.
Untuk C:
PR(C)=1/2
Hasilnya 0,5
Untuk D:
PR(D)=1/3
Hasilnya dibulatkan 0,33.
Jumlah PageRank website A, B, C, dan D seharusnya sama dengan jumlah website:

1,33+1,83+0,5+0,33=3,99

Kekurangan 0,1 disebabkan oleh pembulatan. Dalam kalkulasi ini masih ada yang
kurang. PageRank setiap website tidak disertakan. Sekali lagi kita ambil contoh website B.
Apabila kalkulasi disesuaikan dengan PageRank yang didapat dari langkah pertama:
PR(B)=1/2+1/3+1/1
Di dapat term berikut:
PR(B)=1,33/2+0,5/3+0,33/1
Hasilnya dibulatkan adalah 1,62. Tentu saja kalkulasi baru PageRank website B mengubah
PageRank website A, C, dan D. Nilai baru D kembali mengubah nilai B. Oleh karena itu, Google
mendekati PageRank secara iteratif. Google mengambil hasil sebuah putaran untuk kalkulasi dalam
rangka iterasi berikutnya. Menurut keterangan Page dan Brin, cukup 100 kali putaran iterasi untuk
mencapai secara mendekati nilai PageRank dari milyaran website yang terdapat di Internet.

Tugas STBI

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas STBI

Diunggah oleh

Hak Cipta:

Format Tersedia

NAMA : LIA YULIANA / J2F009040 SISTEM TEMU BALIK INFORMASI

Anda mungkin juga menyukai