Tugas Review Paper

Nama : Endra Pratama
NIM : 17/418633/ppa/05417
1. CRAWLER
Landasan Teori
Crawling terfokus adalah proses untuk menemukan halaman yang berhubungan dengan topik yang
spesifik atau memehuni beberapa fakta penting. Web crawler sendiri memiliki pengertian program yang
bekerja dengan metode tertentu dan secara otomatis mengumpulkan semua informasi yang ada dalam
suatu websiteFucosed crawler melakukan pengambilan data sebanyak mungkin dengan cara efisien.
Beberapa kategori crawling terfokus :
1. Classic : Mengarahkan pencarian halaman berdasarkan query pengguna. Sistem ini

memprioritaskan link berdasarkan topik dari query dan halaman dengan prioritas tertinggi.
Similaritas antara topik dengan halaman digunakan untuk menghitung prioritas. Digunakan
metode Vector Space Model (VSM)
2. Semantic : Merupakan varian dari Clasic yang berfokus pada crawling. Prioritas download
menggunakan similaritas semantic untuk menghitung relevansi topik dengan halaman web
3. Learning : Menggunakan proses training untuk memandu proses crawling dan untuk
menempatkan prioritas kunjungan ke halaman web. Metode yang digunakan adalah Hidden
Markov Models.
Arsitektur
1. User interface : Input dari pengguna kepada crawler dengan basis pengetahuan
2. Web crawling : Crawler memulai dengan mensuplai informasi dan halaman berdasarkan peringkat
mereka
3. Preprocessing : Normalisasi text yang masih mentah dan menggunakan Teknik text preprocessing
4. Ontology Managemen : Untuk mengarahkan crawler berdasarkan basis penetahuan ontology
yang dibuat oleh teknisi manusia
5. Relevance Computation : Mengubah text menjadi text Bahasa natural untuk menghitung skor
relevansi
Paper 1 : Mendemonstrasikan Intellegent Crawling dan Pengarsipan Web Aplikasi
Penulis Muhammad Faheem dan Pierre Senellart
Abstrak
Pada penelitian ini membahas tentang pendekatan baru tentang crawling untuk pengarsipan Web
berbasis “application aware helper” yang mengarahkan aplikasi crawler berdasarkan tipe mereka (lebih
tepatnya berdasarkan sistem manajemen konten). Dengan mengadaptasi strategi crawling dengan tipe
aplikasi web (misalnya forum atau blog) dengan ditambah sedilkit perintah dari pada crawling tradisional.
Application aware helper akan mengektrak konten semantic dari halaman web yang sedang di crawling,
dimana hasilnya akan berbentuk arsip web. Pada penelitian ini akan mendemonstrasikan kepada user
untuk mengkomparasikan application aware crawling dengan web crawling biasa pada website pilihan
mereka. Yang dikomparasikan memuat efisiensi dan pengalaman dalam browsing dan pencarian pada
arsip.
1. Pendahuluan
Kedatangan dari Web 2.0 pada decade terakhir telah mendatangkan pengaruh yang besar pada halaman
web. Terdapat beberapa robot search engine seperti Google dan merupakan konten manajemen sistem
yang paling popular. Penelitian ini berbasis pada application aware helper (AAH) yang membantung
crawling dengan mengidentifikasi tipe aplikasi web dan menunjukan aksi yang tepat
2. Arsitektur
Berikut merupakan arsitektur dari sistem

1. AAH mengandalkan basis pengetahuan dari tipe aplikasi web yang mana mendeskripsikan
bagaimana cara clawaling website menggunakan intelligent manner. Kemudian dasar
pengetahuan menspesifikan cara mendeteksi tipe aplikasi web (CMS) dan bagaimana cara
mengeksekusi crawling tersebut. Basis pengetahuan dideskripsikan dalam format XML
2. Sistem memuat tipe aplikasi web untuk mencari pola dari basis pengetahuan dan
mengeksekusinya dengan aplikasi web. Jika tipe aplikasi web didekteksi makan sistem akan
berjalan semaksimalnya untuk mendeteksi pola hingga ketemu.
3. Ketika sistem menerima permintaan crawling, maka akan di respon oleh YFilter index untuk
mengecek tipe web aplikasi dan levelnya
4. Jika web aplikasi tidak ditemukan maka AAH akan mencari strategi adaptif untuk mencari hasil
yang mendekati.
5. Ketike web aplikasi sukses terdeteksi makan AAH memuat strategi crawling yang berhubungan
dengan basis pengetahuan.
6. Jika sistem gagal melakukan crawling karena pergantian struktur maka sistem akan mencoba
untuk melakukan pencocokan terhadap perubahan menggunakan basis pengetahuan
7. Web aplikasi yang telah dicrawling sebelumnya tapi tidak dapat dicrawling ulang dengan metode
yang sama maka sistem akan berdaptasi dan mempelajari ulang berdasarkan konten yang telah
dicrawling sebelumnya
8. Pada proses adaptasi, sistem juga secara otomatis mengupdate basis pengetahuan dengan pola
dan aksi yang baru
9. Halaman web yang telah di crawling akan di letakkan di form WARC (starndar format untuk
pengarsipan web)
10. Konten yang tersruktur(web dan metadata) kemudian di extrak dan dideskripsikan sebagai basis
pengetahuan
11. Konten yang terstruktur kemudian di letakkan dalam arsip RDF
3. Hasil
Pada penelitian ini telah mendemonstrasikan kepada user untuk mengkomparasikan application
aware crawling dengan web crawling biasa pada website pilihan mereka. Yang dikomparasikan
memuat efisiensi dan pengalaman dalam browsing dan pencarian pada arsip.
=====================================================================================
1. SEMANTIC SEARCH
Landasan Teori
Pengertian SEO / Search Engine Optimization adalah strategi pemasaran online yang paling populer dan
powerful dalam digital marketing. Penggunaan strategi yang tepat dapat meningkatkan bisnis anda,
namun apabila salah, bisnis anda tidak akan dapat di temukan dalam mesin pencari. Strategi ini di gunakan
untuk menampilkan website anda di halaman pertama hasil pencarian untuk kata kunci pilihan anda.
Algoritma Google dan mesin pencari lainnya dibuat untuk sebuah alasan yang sederhana, yaitu para
pencari menginginkan jawaban yang paling relevan untuk pertanyaan mereka dari triliunan halaman web
yang beredar di internet. Jadi Algoritma Google disusun untuk mencapai 3 hal:
 Menyingkirkan halaman yang tidak relevan

 Mengumpulkan halaman yang relevan
 Menyusun halaman yang relevan untuk menemukan yang paling relevan
Karena tidak ada satu faktor yang cukup memadai untuk mendapatkan ketiga hal di atas, maka mesin
pencari menggunakan begitu banyak algoritma yang menghitung ratusan faktor. Rumus dari Algoritma ini
tidak pernah diumumkan; tapi melalui banyak percobaan para pelaku SEO di luar sana disimpulkan
beberapa faktor umum, seperti:
 Kualitas link: Jumlah, kualitas, dan teks jangkar yang digunakan pada link masuk
 Faktor Onpage: Title tag, Desain responsif, kecepatan muat halaman, struktur halaman, dll
 Parameter Brand: Seberapa terkenal brand dari usaha, dan seberapa sering brand dikutip di
dunia maya
 Konten: Kualitas dari konten, frekuensi update, jumlah kunjungan dan jumlah bagikan di
media sosial
Hummingbird adalah algoritma utama dari google yang dibuat dengan menambah faktor pentingnya
penggunaan perangkat mobile dalam pencarian. Dengan masuknya hummingbird maka faktor responsive
design menjadi sangat penting dibandingkan sebelumnya. Jadi sekarang ini sangat penting untuk
memastikan halaman website kita responsif untuk semua ukuran layar gadget.
Selain menambah pentingnya halaman web yang mobile friendly, algoritma hummingbird juga
memperkenalkan konsep pencarian yang kontekstual. Jadi Google sekarang tidak hanya menampilkan
hasil pencarian berdasarkan kata kunci yang kita masukkan tetapi juga akan mengenai kata kunci yang
sangat kuat relasinya dengan kata kunci yang kita masukkan.
Panda adalah algoritma yang membantu hummingbird untuk mensortir faktor onpage dari suatu halaman
web. Ada cukup banyak orang yang dulunya mengandalkan halaman web yang spammy dan mengulang-
ulang kata kunci yang kemudian kandas dan kesulitan mendapatkan ranking di kata kunci yang
persaingannya sangat tinggi.
Halaman-halaman yang spammy dan menumpuk kata kunci seperti ini masih bisa ditemukan masuk dalam
ranking 10 besar pada kata kunci yang persaingannya rendah atau pada kata kunci yang memang
didominasi oleh halaman-halaman web yang spammy.
Jadi Panda ini semacam satpam di depan pintu yang memastikan halaman web anda tidak melanggar
aturan Google. Hanya halaman-halaman web yang memenuhi standar dari algoritma panda ini saja yang
bisa masuk ke penilaian selanjutnya di algoritma hummingbird
Penguin dibangun untuk mengantisipasi perkembangan teknik black hat dari teknik link building. Jadi jika
algoritma Panda bermain di ONPAGE, maka algoritma Penguin akan bermain di OFFPAGE dan menelusuri
kualitas dari backlink.
 Untuk memastikan anda aman dalam melakukan link building maka ada 4 hal yang perlu anda
perhatikan dalam melakukan link building:
 Apakah backlink berasal dari website yang cukup berkualitas? Bukan website yang baru dibuat
kemarin hanya untuk menjadi backlink buat web yang dioptimasi.
 Apakah backlink berasal dari halaman yang relevan? Di mana link tersebut berada di antara teks
yang memang membahas masalah tersebut.
 Apakah backlink berasal dari web yang juga mempunyai profil yang baik? Dan bagaimana profil
backlink secara menyeluruh dari web kita sendiri?
 Apakah backlink yang datang menuju web anda beragam dalam segala hal khususnya teks jangkar
yang memuat kata kunci?
Pencarian Semantic (Semantic Search) adalah Proses akses informasi, dimana satu atau beberapa
aktifitas dapat mendukung dengan sekumpulan kemampuan fungsionalitas dengan teknologi semantik.
 Fungsionalitas Search Enggine : Query Construction (Membangun Query), Query Processing, result
presentation.
 Teknologi Semantik : Knowledge Extraction, Knowledge Representation, Reasoning.
Semantic Search dengan Keyword Index :
 Entry dalam kamus adalah keyword (Seperti traditional information retrieval (Pengambilan
informasi tradisional))
 Memiliki ontology
 Pemetaan keyword (keyword map) untuk elemen pada ontology
 Ontology digunakan untuk ketidak ambiguan query, misalnya untuk memperoleh arti kata yang
tepat dan perluasan query.
 Hasilnya, Konsep di petakan dan dokumen yang mengandung keyword dikembalikan.
Paper 2 : Pemikiran Graf : Satu langkah maju basis pengetahuan Graf dari segala hal yang berkoneksi
Penulis : Danh Le-Phuoca,_, Hoan Nguyen Mau Quoca, Hung Ngo Quoca, Tuan Tran Nhata, Manfred Hauswirthb
Abstrak
Internet of Things (IoT) dengan miliaran gadget yang berkoneksi telah menciptakan banyak sekali data
setiap jamnya. Menghubungkan setiap data gadget melalui IoT kemudian mengubah data tersebut
menjadi aksi yang menciptakan ilmu baru, pengalaman baru, dan peluang-peluang bisnis, individual,
maupun negara. Menyediakan view data secara real time merupakan tantangan yang besar dalam Big
data. Pada penelitian ini membahas tentang bagaimana mempersatukan dan membuat live view untuk
data Iot menggunakan Linkid Data, yaitu Graph of Things (GoT). GoT merupakan software yang dapat di
perluas dan flesksibel untuk digabungkan dengan miliaran record dan dataset statis. GoT akan membuat
kira-kira setengah miliar data yang mengalir menjadi dapat diolah dengan query menggunakan SPARQL
Pendahuluan
Internatonal Data Corporation (IDC) melaporkan bahawa industry digital mengalami perkembangan yang
sangat pesat. Pada tahun 2020 diperkirakan data akan menyntuh angka 40 zettabytes (ZB), dimana 40
triliun GB data atau 5200 GB data setiap manusia di bumi. Berdasarkan permasalahan bagaimnana sumber
data dioperasikan dan data yang terus menerus dating tanpa terkontrol maka deperlukan sebuah solusi.
Pada penelitian ini terinspirasi dari Knowledge Fault, kemudian dibuat suatu sistem bernama Live
Knowledge Graph sebagai langkah untuk membuat ‘real time search engine for Internet of Things’
bernama GoT. Mirip dengan basis pengetahuan graf yang digunakan pada search engine seperti Google
dan Bing.
Arsitektur
1. Mengumpulkan fakta pada hal-hal Fisik, pada penelitian ini menggunakan SSN Ontology untuk
mengambil conten termasuk konfigurasi sensor. Agas dapat memiliki konten yang banyak
maka diambil data dari Linked Data Cloud untuk membuat link sensor, property, dan fitur
yang dimininati.
2. Memperlebar basis data graf kedalam hal-hal Sosial Media, seperti Twitter, Facebook, dan
RSS. DImana media tersebut mampu menyampaikan even, dan informasi dari pengguna
internet.
Grafik diatas merupakan arsitektur keseluruhan yang terdiri dari 4 layer. Konsumsi data diaur dalam Layer
Data Acquisition. Kemudian mentransformasikan aliran data dengan berbagai formatnya menjadi link
streaming (Graph of Think Layer). GoT layer mengumpulkan dan mengindex RDF data.
Pada layer Data Acquisition, data dikumpulkan dan diberikan kepada sistem dengan beberapa protocol
seperti HTTP, FTP, TCP/IP, web socket, MQTT dan kemudian diproses secara asynchronous.
Hasil
Grafik tersebut merupakan tampilan Live View dan Visualisasi dari Graph of Thing
3. QA SYSTEM
Landasan teori
Question answering system (QA system) adalah sistem yang mengijinkan user menanyakan kebutuhan
informasinya dalam bentuk natural language question (pertanyaan dalam bahasa alami), dan
mengembalikan kutipan teks singkat atau bahkan frase sebagai jawaban. Ketersediaan sumber informasi
yang luas dan bervariasi, serta adanya perkembangan yang pesat dari teknik Natural Language Processing
(NLP), Information Extraction (IE), dan Information Retrieval (IR) sangat mempengaruhi perkembangan
dari QA system, yang mana dulunya hanya dapat menjawab pertanyaan-pertanyaan yang terbatas pada
suatu bidang (domain) tertentu dengan berdasarkan pada sumber informasi yang terstruktur seperti
database, hingga kini dapat menjawab berbagai jenis pertanyaan dengan bersumber pada informasi dari
sebuah koleksi teks yang tidak terstruktur. Umumnya arsitektur question answering system yang berbasis
teks dibangun atas enam tahapan proses, yaitu analisis pertanyaan, preprocessing koleksi dokumen,
pemilihan kandidat dokumen, analisis kandidat dokumen, ekstraksi jawaban, dan pemberian respon.
Paper 3 : A Natural Language Question Answering System as a Participant in Human Q&A Portals
Penulis Tiansi Dong, Ulrich Furbach, Ingo Gl¨ockner, Bj¨orn Pelzer
Abstrak
LogAnswer adalah sebuah sistem QA untuk Bahasa jerman, yang bertujuan untuk pertanyaan yang
bermacam-macam. LogAnswer adalah didesain untuk terintegrasi dengan kecerdasan buatan dengan
metode yang bidang NLP, Machine Learning. Pada penelitian ini akan membuat demonstrasi LogAnswer
sebagai mesin yang dapat menjawab pertanyaan yang ada di forum. Pada paper ini juga menghadirkan
machine learning untuk mencegah kesalahan saat menjawab (WAA)
Arsitektur
Intelegent Crawling utk pengarsipan
Graph of Things untuk hidup lebih maju
QA sistem dengan NLP
Ide judul :
Supermarket yang memiliki sistem QA dengan memanfaatkan riwayat berbelanja

Tugas Review Paper

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Review Paper

Diunggah oleh

Hak Cipta:

Format Tersedia

Nama : Endra Pratama

Beberapa kategori crawling terfokus :

1. Classic : Mengarahkan pencarian halaman berdasarkan query pengguna. Sistem ini

Paper 1 : Mendemonstrasikan Intellegent Crawling dan Pengarsipan Web Aplikasi

Penulis Muhammad Faheem dan Pierre Senellart

Berikut merupakan arsitektur dari sistem

 Menyingkirkan halaman yang tidak relevan

Penulis Tiansi Dong, Ulrich Furbach, Ingo Gl¨ockner, Bj¨orn Pelzer

Intelegent Crawling utk pengarsipan

Graph of Things untuk hidup lebih maju

QA sistem dengan NLP

Supermarket yang memiliki sistem QA dengan memanfaatkan riwayat berbelanja

Anda mungkin juga menyukai