Crawling2

Disusun Oleh :
Nama : Yudhistira Eka Paksi Muhammad

Nama Dosen : Ir. Magit Fitroni, M.Kom
Prodi Teknik Informatika

Fakultas Teknik
Universitas Persada Indonesia YAI
Web Information Retrieval
Web Information Retrieval (WIR) atau Sistem Temu Kembali Informasi sendiri sejatinya
memiliki beberapa pengertian, berikut beberapa penjelasan tentang Information
Retrieval :
(1)
Sistem temu balik informasi (Information Retrieval/IR) digunakan untuk menemukan
kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu
kumpulan informasi secara otomatis.
(2)
ilmu yang mempelajari prosedur-prosedur dan metode-metode untuk menemukan
kembali informasi yang tersimpan dari berbagai sumber (resources) yang relevan atau
koleksi sumber informasi yang dicari atau dibutuhkan.
(3)
Dalam ODLIS, Dijelaskan bahwa Temu Kembali informasi (IR) adalah Proses, metode,
dan prosedur yang digunakan untuk menyeleksi informasi yang relevan yang tersimpan
dalam database.
(4)
Information Retrieval (IR) adalah seni dan ilmu mencari informasi dalam dokumen,
mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau
mencari dalam database, apakah relasional database itu berdiri sendiri atau database
hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, video atau
data.
(5)
Information Retrevial adalah bidang keilmuan dalam Teknologi informasi yang
menjelaskan tentang “Pencarian dan Pengambilan Kembali Informasi
(6)
Information Retrieval adalah studi tentang sistem pengindeksan, pencarian, dan
mengingat data, khususnya teks atau bentuk tidak terstruktur lainnya.
(7)
Sistem Temu Kembali Informasi menangani proses yang berkaitan dengan representasi
dokumen, penyimpanan, penelusuran serta penemuan informasi yang relevan terhadap
suatu sistem yang dapat menjembatani informasi dengan pengguna yang membutuhkan
informasi.
(8)
Information Retrieval merupakan bagian dari computer science yang berhubungan
dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan
konteks dari dokumen-dokumen itu sendiri.
Sedangkan pengertian WIR menurut beberapa ahli yakni :
 Lancaster (1979)
Sistem temu kembali informasi tidak menginformasikan semua isi dari subjek
yang dimiliki koleksi tersebut tetapi hanya memberikan informasi keberadaan
pustaka yang mempunyai hubungan subjek seperti yang dicari oleh pengguna.
Menurut Lancaster Sistem Temu Kembali Informasi terdiri dari 6 subsistem, yaitu
:
o Subsistem Dokumen
o Subsistem Pengindeksan
o Subsistem Kosakata
o Subsistem Pencarian
o Subsistem Antarmuka pengguna-sistem
o Subsistem penyesuaian
Adapun fungsi utama IR menurut Lancaster yaitu sebagai berikut :
o Mengidentifikasi sumber informasi yang relevan dengan minat
masyarakat atau pengguna yang ditargetkan.
o Menganalisis isi sumber informasi.
o Merepresentasikan isi sumber informasi dengan cara tertentu yang
memungkinkan untuk dipertemukan dengan query pengguna.
o Merepresentasikan query pengguna dengan cara tertentu yang
memungkinkan untuk dipertemukan sumber informasi yang terdapat
dalam basis data.
o Mempertemukan pernyataan pencarian dengan data yang tersimpan
dalam basis data.
o Menemukan-menembalikan informasi yang relevan.
o Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang
diberikan oleh pengguna.
 Harter (1986)
Sistem temu-kembali informasi (Information Retrieval System/IRS) adalah
perangkat yang menghubungkan antara pemakai potensial dengan koleksi atau
kumpulan informasi.
 Houghton (1977)
Sistem temu kembali informasi adalah penelusuran yang merupakan interaksi
antara pemakai dan sistem dan pernyataan kebutuhan pengguna diekspresikan
sebagai suatu istilah tertentu.
 Zaenab (2002)
Menjelaskan bahwa sistem temu kembali informasi informasi merupakan suatu
proses pencarian dokumen dengan menggunakan istilah-istilah bahasa pencarian
untuk mendefinisikan dokumen sesuai dengan subjek yang diinginkan.
 Hasugian (2003)
Menjelaskan bahwa sistem temu kembali informasi pada dasarnya adalah suatu
proses untuk mengidentifikasi, kemudian memanggil (retrieval) suatu dokumen
dari suatu simpanan (file), sebagai jawaban atas permintaan informasi.
 Ingwersen (1992)
Mengatakan bahwa sistem temu kembali informasi adalah sebuah sistem yang
dibangun melalui proses antara objek sistem, sistem setting, dan situasi yang
memungkinkan terjadinya penelusuran dan ditemukannya informasi potensial
yang diinginkan oleh penelusur informasi.
Contoh dari Web Information Retrieval antara lain :
 Search Engine
Keyword dimasukkan oleh user untuk pencarian informasi yang diinginkan pada
Search Engine, yang mana informasi yang didapatkan mengandung
relevansi/keterkaitan dengan yang diharapkan. Sebagai contoh ketika hendak
mencari informasi tentang Indonesia di search engine maka nanti akan
ditampilkan nama Negara Indonesia beserta info terkait seperti luas wilayah,
terletak di benua apa, memiliki berapa pulau, ibu kotanya apa dan sebagainya.
 Content Base Image Retrieval (CBIR)
Retrieval berdasarkan kategori konten dan warna. Dimana user mendeskripsikan
image /gambar apa yang akan dicari dengan cara memilih kategori misalnya
jenis image, Negara, tahun pembuatan dsb.
 Deepdyve.com
Deepdyve.com adalah mesin pencari yang belum popular dan kuat, alat
pencarian penelitian profesional tersedia secara gratis untuk masyarakat umum.
Ini adalah mesin penelitian yang memungkinkan Anda mengakses konten ahli
dari "Deep Web" atau website yang disembunyikan, bagian dari internet yang
tidak diindeks oleh mesin pencari lain (misalnya database, jurnal dll).
Mesin pencari situs penelitian ini mengandalkan bahasa Boolean atau kode
taksonomi, yang merupakan ambang batas dan yang membuat mereka sulit
untuk digunakan (atau bahkan tidak dapat diakses) kepada siapa pun kecuali
orang dalam. Deepdyve adalah sebuah antarmuka yang mudah dan canggih
untuk digunakan sebab sumber-sumber informasi nya yang berharga.
Query nya terdiri dari apa pun dari satu kata untuk 25 000 karakter. Hasil
pencarian disajikan dalam cara yang kompleks dengan banyak pilihan lanjutan
untuk pemurnian, menyortir atau menyimpan pencarian Anda. Meskipun
kompleksitas, hasil pencarian ini yang relatif mudah dinavigasi oleh kita.
 Sistem Perpustakaan / Retrieval Perpustakaan
Perpustakaan adalah salah satu institusi pertama yang mengadopsi sistem IR
untuk mendapatkan informasi. Pada umumnya, sistem yang digunakan di
perpustakaan pada awalnya dikembangkan oleh institusi akademis dan
kemudian oleh produsen komersil. Pada generasi pertama, sistem pada dasarnya
terdiri dari suatu otomatisasi dari teknologi sebelumnya (seperti kartu katalog)
dan memungkinkan pencarian berdasar judul dan nama pengarang. Pada
generasi kedua , kemampuan pencarian ditambahkan dengan pencarian
berdasarkan pokok utama, dengan kata kunci, dan tambahan lagi fasilitas kueri
kompleks. Pada generasi ketiga, yang sekarang ini yang sedang menyebar,
fokusnya adalah meningkatkan antarmuka grafis, format elektronik, fitur
hypertext, dan sistem arsitektur terbuka
Web Search
Web Search adalah cara pencarian suatu informasi melalui layanan web searching
engine. Web Search Engine adalah program komputer yang dirancang untuk melakukan
pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi milis,
ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu
jaringan. Mesin pencari merupakan perangkat penelusur informasi dari dokumen-
dokumen yang tersedia.
Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan
menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut
sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai
macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas
lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas
data yang tersimpan dalam suatu basis data ataupun direktori web. Sebagian besar
mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritme
kepemilikan dan basis data tertutup, di antaranya yang paling populer adalah safari
Google (MSN Search dan Yahoo!). Telah ada beberapa upaya menciptakan mesin
pencari dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch, Egothor
dan OpenFTS.
Contoh Web Search yakni :
Google
Bing
Natural Language Processing
Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI yang berfokus
pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang secara umum
digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa yang diterima
oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari
user bisa dipahami dengan baik oleh komputer.
Kajian NLP antara lain mencakup segmentasi tuturan (speech segmentation),
segmentasi teks (text segmentation), penandaan kelas kata (part-of-speech tagging),
serta pengawataksaan makna (word sense disambiguation). Meskipun kajiannya dapat
mencakup teks dan tuturan, pemrosesan tuturan (speech processing) telah berkembang
menjadi suatu bidang kajian terpisah.
Ada berbagai terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang
membuat user bisa seolah-olah melakukan komunikasi dengan computer), Stemming
atau Lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar
pengenalan fungsi setiap kata dalam kalimat), Summarization (ringkasan dari bacaan),
Translation Tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang
memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan oleh
user.
Pustejovsky dan Stubbs (2012) menjelaskan bahwa ada beberapa area utama penelitian
pada field NLP, diantaranya:
Question Answering Systems (QAS). Kemampuan komputer untuk menjawab
pertanyaan yang diberikan oleh user. Daripada memasukkan keyword ke dalam browser
pencarian, dengan QAS, user bisa langsung bertanya dalam bahasa natural yang
digunakannya, baik itu Inggris, Mandarin, ataupun Indonesia.
Summarization. Pembuatan ringkasan dari sekumpulan konten dokumen atau email.
Dengan menggunakan aplikasi ini, user bisa dibantu untuk mengkonversikan dokumen
teks yang besar ke dalam bentuk slide presentasi.
Machine Translation. Produk yang dihasilkan adalah aplikasi yang dapat memahami
bahasa manusia dan menterjemahkannya ke dalam bahasa lain. Termasuk di dalamnya
adalah Google Translate yang apabila dicermati semakin membaik dalam
penterjemahan bahasa. Contoh lain lagi adalah BabelFish yang menterjemahkan bahasa
pada real time.
Speech Recognition. Field ini merupakan cabang ilmu NLP yang cukup sulit. Proses
pembangunan model untuk digunakan telpon/komputer dalam mengenali bahasa yang
diucapkan sudah banyak dikerjakan. Bahasa yang sering digunakan adalah berupa
pertanyaan dan perintah.
Document classification. Sedangkan aplikasi ini adalah merupakan area penelitian NLP
Yang paling sukses. Pekerjaan yang dilakukan aplikasi ini adalah menentukan dimana
tempat terbaik dokumen yang baru diinputkan ke dalam sistem. Hal ini sangat berguna
pada aplikasi spam filtering, news article classification, dan movie review.
Terminologi NLP
Perkembangan NLP menghasilkan kemungkinan dari interface bahasa natural menjadi
knowledge base dan penterjemahan bahasa natural. Poole dan Mackworth (2010)
menjelaskan bahwa ada 3 (tiga) aspek utama pada teori pemahaman mengenai natural
language:
Syntax: menjelaskan bentuk dari bahasa. Syntax biasa dispesifikasikan oleh sebuah
grammar. Natural language jauh lebih daripada formal language yang digunakan untuk
logika kecerdasan buatan dan program komputer
Semantics: menjelaskan arti dari kalimat dalam satu bahasa. Meskipun teori semantics
secara umum sudah ada, ketika membangun sistem natural language understanding
untuk aplikasi tertentu, akan digunakan representasi yang paling sederhana.
Pragmatics: menjelaskan bagaimana pernyataan yang ada berhubungan dengan dunia.
Untuk memahami bahasa, agen harus mempertimbangan lebih dari hanya sekedar
kalimat. Agen harus melihat lebih ke dalam konteks kalimat, keadaan dunia, tujuan dari
speaker dan listener, konvensi khusus, dan sejenisnya.
Social Network Analysis

Social Network Analysis (SNA) adalah satu alat untuk memetakan hubungan
pengetahuan penting antara individu (Pryke, 2004). SNA merupakan pendekatan yang
digunakan untuk penelitian social seperti melacak arus informasi vertikal dan lateral,
mengidentifikasi sumber-sumber dan tujuan untuk mencari batasan atas resourses
(Wellman, 1997).
SNA dikembangkan untuk memahami hubungan-hubungan (ties/edge) dari aktor-aktor
(nodes/points) yang ada dalam sebuah sistem dengan 2 fokus, yaitu aktor-aktor dan
hubungan antar aktor dalam konteks sosial tertentu. Fokus tersebut membantu
pemahaman terhadap bagaimana posisi aktor-aktor yang ada dapat mempengaruhi
akses terhadap sumber daya yang ada misalnya barang, modal, dan informasi.
Sedangkan menurut Wikipedia, SNA adalah proses penyelidikan struktur sosial melalui
penggunaan jaringan dan teori grafik. Ini mencirikan struktur jaringan dalam hal node
(aktor individu, orang, atau hal-hal dalam jaringan) dan ikatan, tepi, atau tautan
(hubungan atau interaksi) yang menghubungkan mereka.
Contoh-contoh struktur sosial yang biasa divisualisasikan melalui analisis jejaring sosial
meliputi jaringan media sosial, penyebaran meme, sirkulasi informasi, jaringan
pertemanan dan kenalan, jaringan bisnis, jaringan sosial, grafik kolaborasi, kekerabatan,
transmisi penyakit, dan hubungan seksual. Jaringan ini sering divisualisasikan melalui
sosiogram di mana node direpresentasikan sebagai titik dan ikatan diwakili sebagai
garis. Visualisasi ini menyediakan sarana untuk menilai jaringan secara kualitatif dengan
memvariasikan representasi visual dari simpul dan tepiannya untuk mencerminkan
atribut yang diminati.
Analisis jaringan sosial telah muncul sebagai teknik kunci dalam sosiologi modern. Itu
juga telah memperoleh pengikut yang signifikan dalam antropologi, biologi, demografi,
studi komunikasi, ekonomi, geografi, sejarah, ilmu informasi, studi organisasi, ilmu
politik, psikologi sosial, studi pengembangan, sosiolinguistik, dan ilmu komputer dan
sekarang umumnya tersedia sebagai alat konsumen.
Web Crawling
Crawling adalah proses dimana Googlebot menemukan halaman baru yang akan
ditambahkan ke dalam indeks Google. Program yang melakukan pengambilan data
halaman website disebut Googlebot (juga dikenal sebagai robot, bot, atau spider).
Dalam proses Crawling, Googlebot akan menentukan website mana yang akan
dicrawling, akan seberapa sering dicrawling, dan berapa banyak halaman yang akan
dicrawling dari masing-masing website.
Proses Crawling ini dimulai dari kumpulan daftar url halaman yang didapatkan dari
proses Crawling sebelumnya dan juga daftar url dari sitemap yang telah disubmit ke
Google Webmaster Tool. Urutan prosesnya, Googlebot mengunjungi sebuah website,
kemudian mendeteksi adanya link pada halaman website tersebut, melalui link tersebut
Googlebot akan menemukan halaman yang lainnya untuk dicrawling.
Contoh web crawling antara lain :
Googlebot
Googlebot adalah webcrawler (perayap jaringan) yang digunakan oleh Google.
Googlebot digunakan untuk mencari dan mengumpulkan halaman-halaman di internet.
Informasi yang dikumpulkan Googlebot digunakan untuk memperbarui index Google.
Googlebot mengunjungi triliunan halaman web dan terus menerus mengunjungi
halaman-halaman tersebut.
GoogleBot memiliki 2 sistem kerja, yaitu:
 Freshbot.
Freshbot akan meng-crawl website dan mencari fresh content. Freshbot akan
mengunjungi website yang memiliki frekwensi berubahnya tinggi , serta
tergantung pada seberapa cepat berubahnya frekwensi. Jika frekwensi content
website kamu tinggi, Frashbot akan sering datang ke web kamu dan GoogleBot
hanya akan mengikuti Href Link dan SRC Link.
 Deepbot
Deepbot akan mencoba untuk mengikuti setiap link dalam sebuah website dan
men-download sebanyak mungkin halaman website kamu. Proses ini akan
selesai sekitar sebulan sekali.
Web Spidering
Web Spidering atau Web Crawler adalah suatu program atau script otomat yang relatif
simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-
halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web
crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum
adalah yang terkait dengan search engine. Search engine menggunakan web crawl
untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web
publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet
mengetikkan kata pencarian di komputernya, search engine dapat dengan segera
menampilkan web site yang relevan.
Cara Kerja Web Crawler :
 Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak
halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil
dengan web crawler — browser web otomatis yang mengikuti setiap pranala
yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara
mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field
khusus yang disebut meta tag). Data tentang halaman web disimpan dalam
sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
 Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian
berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto
dan sebagainya.
 Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query,
biasanya dengan memasukkan kata kunci, mesin mencari indeks dan
memberikan daftar halaman web yang paling sesuai dengan kriterianya.
Contoh Web Spidering :
Google Spidering Bot / Spiderbot
Spiderbot adalah webcrawler (perayap jaringan) yang digunakan oleh Google.

Googlebot digunakan untuk mencari dan mengumpulkan halaman-halaman di internet.
Informasi yang dikumpulkan Googlebot digunakan untuk memperbarui index Google.
spiderbot mengunjungi triliunan halaman web dan terus menerus mengunjungi

halaman-halaman tersebut.
Daftar Pustaka
http://socs.binus.ac.id/2013/06/22/NATURAL-LANGUAGE-PROCESSING/
https://goo.gl/images/5yNDru
https://id.wikipedia.org/wiki/Pemrosesan_bahasa_alami
http://bentar-priyopradono.blogspot.com/2013/03/social-network-analysis.html
https://en.wikipedia.org/wiki/Social_network_analysis
https://www.dumetschool.com/blog/Cara-Google-dalam-Crawling-Indexing-Serving
http://trikmudahseo.blogspot.com/2018/04/apa-itu-googlebot.html
http://blograkata.blogspot.com/2012/01/pengertian-googlebot.html
https://pintasku.com/tutorial/mengenal-dan-memahami-apa-itu-web-crawler/
https://id.wikipedia.org/wiki/Mesin_pencari_web

Crawling2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Crawling2

Diunggah oleh

Hak Cipta:

Disusun Oleh :

Nama : Yudhistira Eka Paksi Muhammad

Prodi Teknik Informatika

Social Network Analysis

Contoh Web Spidering :

Google Spidering Bot / Spiderbot

Spiderbot adalah webcrawler (perayap jaringan) yang digunakan oleh Google.

spiderbot mengunjungi triliunan halaman web dan terus menerus mengunjungi

Anda mungkin juga menyukai