Anda di halaman 1dari 13

TUGAS 6 DATA MINING

Tanggal Pengumpulan: 17 December 2010

Web Mining

Disusun Oleh:
090155201031 Mega Jaya

PROGRAM STUDI TEKNIK INFORMATIKA


UNIVERSITAS MARITIM RAJA ALI HAJI
2010

1
1. TUGAS 1 Translate Materi Web Mining

1. Empat masalah dalam Web Mining

 Menemukan informasi yang relevan, karena rendahnya


presisi dan informasi yang tidak ter-indeks.

 Menghasilkan pengetahuan baru dari informasi yang


tersedia dari web.

 Personalisasi informasi yang diperoleh, dalam isi dan


bentuk informasi tersebut.

 Mempelajari tentang pengguna. Apa yang pengguna


lakukan dan menggunakan web untuk memasarkan
produk dan jasa dengan lebih efektif.

2. Pendekatan lain

Web mining bukanlah satu-satunya pendekatan untuk


memperoleh informasi dari web. Terdapat metode lain,
sebagai berikut:
 Database approach (DB)

 Information Retrieval (IR)

 Natural Language Processing (NLP), untuk


menganalisis sintaksis dan semantik bahasa

 Komunitas dari dokumen web, karena memiliki


standarisasi, meta-informasi yang ditambahkan
secara manual, direktori yang dipelihara, dan lain
sebagainya.

3. Web mining langsung vs tidak langsung

Teknik web mining dapat digunakan untuk menyelesaikan


masalah informasi yang terlalu banyak (overload):

2
 Secara langsung: Menyelesaikan masalah tersebut
dengan menggunakan teknik web mining. Contoh:
aplikasi newsgroup mengklasifikasikan berita
secara relevan.

 Secara tidak langsung: Web mining digunakan


sebagai bagian dari aplikasi yang akan
menyelesaikan masalah tersebut. Contoh: web
mining digunakan untuk membuat indeks untuk
sebuah layanan mesin pencari web.

4. Penelitian

 Menyatukan penelitian mengenai: database, sistem


temu balik, dan kecerdasan buatan khususnya NLP dan
machine learning.

 Memfokuskan penelitian dari sudut pandang machine


learning.

5. Definisi web mining

Definisi web mining adalah : Keseluruhan proses menemukan


informasi yang berpotensial memiliki kegunaan dan informasi
atau pengetahuan yang sebelumnya tidak diketahui dari web.
 Web mining dapat dikelompokkan dalam 4
subtugas.

 Tidak sama dengan Information Retrieval (IR).

 Tidak sama dengan Information Extraction (IE).

6. Subtugas web mining

Ada empat subtugas web mining:


 Menemukan sumber data, melalui menemukan

3
dokumen.

 Menyeleksi dokumen dan praproses terhadap


informasi dari dokumen yang diperoleh.

 Generalisasi, menemukan pola umum dalam


website dan antar website.

 Analisa, validasi dan interpretasi pola yang


dimiliki.

7. Web mining bukanlah IR

 Information Retrieval (IR) adalah penemuan otomatis


dari semua dokumen yang relevan dan pada saat yang
sama menemukan sedikit dokumen yang nonrelevan
yang mungkin ditemukan.

 Klasifikasi dokumen web, dimana ia merupakan bagian


dari tugas web mining, dan merupakan bagian dari IR.
Contoh: proses indexing untuk mesin pencari web.

8. Web mining bukanlah IE

Information Extraction (IE) mengacu kepada proses


mengekstrak atau mengambil fakta-fakta dan data-data yang
relevan dari suatu dokumen.
 Sistem IE untuk keseluruhan web atau web
umum sangat tidak dimungkinkan.

 Sebagian besar memfokuskan pada web yang


spesifik atau kepada isi web.

9. Web mining dan machine learning

 Machine learning memfokuskan kepada pengembangan


algoritma dan teknik agar komputer memiliki

4
kemampuan untuk “belajar”.

 Web mining tidak belajar dari web.

 Beberapa aplikasi dari machine learning pada web


bukanlah web mining.

 Metode-metode yang digunakan pada web mining tidak


terbatas pada machine learning.

 Ada hubungan yang dekat antara web mining dan


machine learning.

10. Paradigma Perantara pada web mining

 Perantara User Interface (UI agent)

 Perantara IR, perantara filtering informasi, dan


perantara perseorangan (personal assistant).

 Perantara yang didistribusikan (Distributed agent)

 Perantara yang didistribusikan untuk menemukan


informasi atau data mining.

 Memecahkan masalah dengan menggunakan


sekelompok perantara.

 Perantara mobile (Mobile agent)

 Pendekatan berdasarkan isi

 Sistem mencari item yang sesuai dengan hasil


analisa isi dengan menggunakan referensi dari
pengguna.

 Pendekatan kolaboratif

 Sistem mencoba mencari pengguna dengan minat

5
yang sama atau sejenis.

 Rekomendasi diberikan berdasarkan apa yang


pengguna tersebut lakukan.

11. Kategori web mining

Kategori web mining:


 Web content mining, menemukan informasi yang
berguna dari dokumen dan data di web.

 Web structure mining, menemukan model yang


mendasari struktur link pada web.

 Web usage mining:

 Mengartikan data yang dihasilkan oleh


pengguna.

 Penggunaan data dari log, profil pengguna,


sesi pengguna, permintaan pengguna, klik
mouse, dan lain-lain.

12. Struktur data web

Struktur data pada web:


 Unstructured (tidak memiliki struktur), teks bebas

 Semi-structured, HTML

 Structured, tabel atau database yang


menghasilkan halaman HTML

 Multimedia data, menerima lebih sedikit perhatian


daripada teks atau HTML

13. Web content mining IR

Dokumen yang tidak memiliki stuktur:

6
 Kumpulan kata, atau kelompok kata yang
memiliki ciri

 Ciri dapat berupa boolean atau berbasis frekuensi


kemunculan

 Ciri dapat dikurangi melalui penggunaan teknik


seleksi ciri yang berbeda

 Teknik stemming kata-kata, menggabungkan


ragam dan variasi kata menjadi satu ciri

Dokumen bersifat Semi-structured:


 Menggunakan representasi yang lebih kaya untuk
ciri-cirinya, berbasis informasi dari dokumen
terstruktur (biasanya HTML dan hyperlinks)

 Menggunakan teknik data mining yang umum


digunakan (dimana dokumen yang tidak memiliki
struktur mungkin menggunakan lebih banyak
teknik data mining)

14. Web content mining DB

 Mencoba menduga struktur dari suatu website atau


mengubah suatu website menjadi suatu database, agar
memiliki manajemen informasi yang lebih baik dan
lebih mudah di query dari web.

Dapat dicapai melalui:


 Menemukan skema dari dokumen di web

 Membangun web warehosue

 Membangun web knowledge base

7
 Membangun database virtual

 Umumnya menggunakan OEM (Object Exchange Model)


yang merepresentasikan data semi-structured

 Proses dimulai dengan seleksi manual dari website


untuk content mining

 Aplikasi utama berupa membangun kumpulan


terstruktur dari data semi-structured (ekstraksi atau
penemuan skema)

15. Web structure mining

 Memfokuskan pada hubungan antar dokumen web

 Terinspirasi oleh studi mengenai jaringan-jaringan


sosial dan analisa

 Contoh: google pagerank

 Aplikasi berupa menemukan komnitas-komunitas kecil


dalam web

 Mengukur kelengkapan dari suatu website

16. Web usage mining

 Mencoba memprediksi tingkah laku pengguna dari


interaksinya dengan web

 Ada dua pendekatan

 Memetakan penggunaan data menjadi database


relasional sebelum menggunakan teknik data
mining

 Menggunakan data dari log secara langsung

8
dengan menggunakan teknik preproses

 Biasanya web usage mining menggunakan beberapa


latar belakang dan pengetahuan dari suatu domain.
Contoh: topologi dari suatu web, isi dari web, dan lain-
lain.

 Ada dua kategori dari web usage mining;

 Mempelajari profil pengguna untuk personalisasi


pengguna

 Mempelajari pola navigasi pengguna

2. TUGAS2 Menjawab Pertanyaan yang ada pada Materi

Pertanyaan:
Outline karakteristik utama Web informasi, adalah....

Jawaban:
Informasi Web sangat besar, beragam, dan dinamis

Pertanyaan:
Bagaimana data teknis datamining dapat digunakan dalam
analisis informasi Web? Berikan paling sedikit dua contoh.

Jawaban:
1. Klasifikasi
klasifikasi log server menggunakan pohon keputusan,
klasifikasi Naïve-Bayes untuk menemukan
profil pengguna milik kelas tertentu
2. Clustering
Clustering dapat digunakan untuk pengguna kelompok
menunjukkan pola yang sama browsing.
3. Asosiasi Analisis:

9
analisis asosiasi dapat digunakan untuk berhubungan
dengan halaman yang paling sering dirujuk bersama-sama
dalam server tunggal sesi.

Pertanyaan:
Apa saja tiga bidang utama untuk Web mining?

Jawaban:
1.Konten Web
2.Web Struktur
3.Penggunaan Web

3. Kesimpulan

1. web mining adalah : Keseluruhan proses


menemukan informasi yang berpotensial memiliki
kegunaan dan informasi atau pengetahuan yang
sebelumnya tidak diketahui dari web.
2. Menurut analisis target, web mining dapat dibagi
menjadi tiga jenis, yaitu Web mining penggunaan,
web mining konten dan web mining struktur.
3. web mining dasarnya memiliki banyak keuntungan
yang membuat teknologi ini menarik untuk
perusahaan termasuk lembaga pemerintah.
Teknologi ini telah memungkinkan e-commerce
untuk melakukan pemasaran yang dipersonalisasi,
yang akhirnya hasil dalam volume perdagangan yang
lebih tinggi. Instansi pemerintah menggunakan
teknologi ini untuk mengklasifikasikan ancaman dan
perang melawan terorisme. Kemampuan
memprediksi aplikasi mining dapat memberi manfaat
bagi masyarakat dengan mengidentifikasi aktivitas
kriminal. Perusahaan-perusahaan dapat
membangun hubungan pelanggan yang lebih baik
dengan memberikan mereka apa yang mereka
butuhkan. Perusahaan dapat memahami kebutuhan
pelanggan yang lebih baik dan mereka dapat
bereaksi terhadap kebutuhan pelanggan lebih cepat.
Perusahaan-perusahaan dapat menemukan, menarik
dan mempertahankan pelanggan, mereka dapat
menghemat biaya produksi dengan memanfaatkan
wawasan diperoleh persyaratan pelanggan. Mereka

10
dapat meningkatkan profitabilitas dengan harga
target berdasarkan profil dibuat. Mereka bahkan
dapat menemukan pelanggan yang mungkin default
pesaing perusahaan akan berusaha untuk
mempertahankan pelanggan dengan memberikan
penawaran promosi kepada pelanggan yang spesifik,
sehingga mengurangi resiko kehilangan pelanggan
atau pelanggan.
4. web mining, sendiri, tidak menciptakan masalah,
namun teknologi ini bila digunakan pada data
bersifat pribadi dapat menyebabkan keprihatinan.
Isu etika yang paling dikritik melibatkan web mining
invasi privasi. Privasi dianggap hilang ketika
informasi tentang seorang individu diperoleh,
digunakan, atau disebarluaskan, terutama jika hal
ini terjadi tanpa pengetahuan atau persetujuan. Data
yang diperoleh akan dianalisis, dan dikelompokkan
untuk membentuk profil, data akan dibuat anonim
sebelum clustering sehingga tidak ada profil pribadi.
Jadi aplikasi ini de-individualize pengguna dengan
menilai mereka dengan klik mouse mereka. De-
individualisasi, dapat didefinisikan sebagai
kecenderungan menilai dan memperlakukan orang
berdasarkan karakteristik kelompok bukan pada
karakteristik individual mereka sendiri dan manfaat.
5. Keprihatinan lain yang penting adalah bahwa
perusahaan pengumpulan data untuk tujuan
tertentu mungkin menggunakan data untuk tujuan
yang sama sekali berbeda, dan ini pada dasarnya
melanggar kepentingan pengguna. Tren yang
berkembang penjualan data pribadi sebagai
komoditas mendorong pemilik website untuk
perdagangan data pribadi yang diperoleh dari situs
mereka. Tren ini telah meningkatkan jumlah data
yang ditangkap dan diperdagangkan meningkatkan
bersesuaian dari privasi seseorang sedang diserang.
Perusahaan yang membeli data wajib membuat
anonim dan perusahaan-perusahaan ini dianggap
penulis setiap peluncuran khusus pola mining.
Mereka secara hukum bertanggung jawab atas isi
dari rilis, setiap ketidakakuratan dalam rilis akan
menghasilkan tuntutan hukum yang serius, tetapi

11
tidak ada hukum yang mencegah mereka dari
perdagangan data.
6. web mining, ketika memandang dalam hal data
mining, bisa dikatakan telah tiga operasi
kepentingan - clustering (menemukan kelompok
alami pengguna, halaman dll), asosiasi (yang URL
cenderung diminta bersama-sama), analisis dan
berurutan (yang urutan URL cenderung diakses).
Seperti dalam masalah di dunia nyata umumnya,
kelompok dan asosiasi di bidang web mining tidak
memiliki batas-batas renyah. dan sering tumpang
tindih jauh. Selain itu, teladan buruk (outlier) dan
data tidak lengkap dengan mudah dapat terjadi
dalam kumpulan data, karena berbagai alasan yang
melekat pada browsing web dan logging. Dengan
demikian, Web Pertambangan dan Personalisasi
membutuhkan pemodelan yang tidak diketahui
jumlahnya tumpang tindih set di hadapan
kebisingan signifikan dan outlier, (yaitu, eksemplar
buruk). Selain itu, data set di Web pertambangan
sangat besar.

12
Daftar Pustaka

1. http://www.cs.umbc.edu/~ajoshi/web-mine/
2. http://en.wikipedia.org/wiki/Web_mining

13