Spidering2

Disusun oleh :
Yudhistira Eka Paksi Muhammad

Dosen : Ir. Magit Fitroni, M.Kom
Teknik Informatika
Fakultas Teknik
Universitas Persada Indonesia YAI
Web Mining
Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun

tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world
wide web. Web mining teridiri atas tiga bagian yaitu: web content mining, web structure
mining, dan web usage mining.
Web content mining adalah suatu proses otomatis untuk menemukan informasi
yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata
kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra,
audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama
langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta
mengimprove hasil pencarian seperti layaknya search engine.
Web structure mining dikenal juga sebagai web log mining adalah teknik yang
digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman
website dan halaman web. Salah satu manfaatnya adlah untuk menentukan pagerank
pada suatu halaman web.
Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan
struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query.
Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining
terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP.
Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil
pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan
menentukan target market yang sesuai.
Text Mining
Text mining memiliki definisi menambang data yang berupa teks dimana sumber
data biasanya di dapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang
dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan
antardokumen.
Sedangkan menurut situs wikipedia, Penambangan teks (bahasa Inggris: text
mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna
dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll.
Jenis masukan untuk penambangan teksini disebut data takter struktur dan merupakan
pembeda utama dengan penambangan data yang menggunakan data terstruktur atau
basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua
tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan
dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevandari data teks
terstrukturini dengan menggunakan teknik dan alat yang sama dengan penambangan
data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah
perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll.
Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari
sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah
kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi
terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian
teks (text categorization) dan pengelompokan teks text clustering).
Area penerapan teks mining yang paling popular adalah :
 Ekstraksi Informasi
 Pelacakan Topik
 Perangkuman
 Kategorisasi
 Penggugusan
 Penautan Konsep
 Penjawaban Pertanyaan
Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya
memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial
intelligent), machine learning, statistik dan database. Data mining adalah proses
menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola
tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola
dari data. Data mining menjadi alat yang semakin penting untuk mengubah data
tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil,
seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah
digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk
menyaring volume data seperti catatan perjalanan penumpang penerbangan, data
sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam
analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena
diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set
data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh
berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari
domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan
berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang
dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol
untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam
penerapannya antara lain: clustering, classification, association rule mining, neural
network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data
Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database
skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat
dipakai untuk data skala kecil saja.
Latar Belakang Terbentuknya Data Mining
 Melimpahnya data (overload data) yang dialami oleh berbagai institusi,
perusahaan atau organisasi.
 Merlimpahnya data ini merupakan akumulasi data transaksi yang terekam
bertahun-tahun..
 Data–data tersebut merupakan data transaksi yang umumnya diproses
menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line
Transaction Processing).
Fungsi - Fungsi Umum Data Mining
 Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu
kombinasi item dalam suatu waktu
 Sequence, proses untuk menemukan aturan assosiatif antara suatu kombinasi
item dalam suatu waktu dan diterapkan lebih dari satu periode
 Clustering, adalah proses pengelompokan seumlah data/obyek ke dalam
kelompok data sehingga setiap kelompok berisi data yang mirip
 Classification, proses penemuan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
 Regretion, adalah proses pemetaan data dalam suatu nilai prediksi
 Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola
di dalam sekumpulan data.
 Solution, adalah proses penemuan akar masalah dan problem solving dari
persoalan bisnis yang dihadapkai atau paling tidak sebagai informasi dalam
pengambilan keputusan.
Proses Data Mining
 Pembersihan data dan integritas data (Cleaning & Integration)

Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat
noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda
format maupun platform yang kemudian dinintegrasikan dalam satu database
datawarehouse
 Seleksi dan transformasi data (selection and transformation)
Data yang ada dalam database datawarehouse kemudian direduksi untuk
mendapatkan hasil yang akurat. Beberapa cara seleksi, antara lain :
 Metode seleksi pada data Mining
o Sampling, adalah seleksi subset representatif dari populasi data yang
besar.
o Denoising, adalah proses menghilangkan noise dari data yang akan
ditransformasikan
o Feature extraction, adalah proses membuka spesifikasi data yang
signifikan dalam konteks tertentu
 Metode transformasi pada Data Mining
o Centering, mengurangi setiap data dengan rata-rata dari setiap atribut
yang ada.
o Normalisation, membagi setiap data yang dicentering dengan standar
deviasi dari atribut bersangkutan.
o Scaling, mengubah data sehingga berada dalam skala tertentu.
 Penambangan data (data mining)
Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik.
Proses data mining adalah proses mencari pola atau informasi menarik dalam
data terpilih dengan menggunkan fungsi-fungsi tertentu. Fungsi atau algoritma
dalam data mining sangat bervariasi, dimana pemilihannya bergantung pada
tujuan dan proses pencarian pengetahuan secara menyeluruh.
 Evaluasi pola dan presentasi pengetahuan
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup
pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan
fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah
mempresentasikan pengetahuan dalam bentuk yang mudah dipahami pengguna.
Teknik-teknik Web Mining
Web mining teridiri atas tiga bagian yaitu: web content mining, web structure
mining, dan web usage mining.
Web content mining adalah suatu proses otomatis untuk menemukan informasi
yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata
kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra,
audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama
langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta
mengimprove hasil pencarian seperti layaknya search engine.
Web structure mining dikenal juga sebagai web log mining adalah teknik yang
digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman
website dan halaman web. Salah satu manfaatnya adlah untuk menentukan pagerank
pada suatu halaman web.
Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan
struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query.
Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining
terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP.
Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil
pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan
menentukan target market yang sesuai.
Web Usage Mining
Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web
melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool
yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log.
Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining
adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan
ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang
sesuai.
Dalam implementasi Web Usage Mining terdapat tiga (3) tahap/fase yang
harus dilakukan untuk mendapatkan pustaka–pustaka maupun sumber informasi
yaitu:
 Tahap Preprocessing
Tahap Preprocessing ini adalah tahapan awal untuk memulai proses keseluruhan
dari Web Usage Mining. Tahap ini sangat penting dikerjakan untuk melakukan
standarisasi data dan menghilangkan bagian–bagian data yang tidak diperlukan
dalam proses mining. Tahap Preprocessing ini masih terbagi lagi
menjadibeberapa tahapan, yaitu:
o Data Cleaning, yaitu tahapan yang berfungsi untuk membersihkan file log
yang tidak relevan dari data dengan proses mining, seperti data
multimediadan script CSS maupun Javascript.
o User Identification, yaitu tahapan yang berfungsi sebagai proses
pengidentifikasian user. Dalam realitanya, beberapa user dimungkinkan
untukmenggunakan komputer (host) yang sama.
o Session Identification, yaitu tahapan yang dimulai setelah
userterindentifikasi. Halaman yang diakses juga harus dibagi ke dalam
sesitertentu agar dapat tercipta sesi tunggal untuk setiap user yang
mengakses.
o Path Completion, yaitu tahapan untuk melengkapi path yang mungkin
belumlengkap karena tersimpan pada file log.
o Transaction Identification, yaitu tahapan untuk mengindentifikasi
sejumlahsesi tertentu agar dapat menunjukkan proses transaksi yang
dilakukan olehuser.
 Tahap Pattern Discovery
Tahap kedua dari web usage mining ini berupa pencarian pola akses yang
dilakukan oleh user (pengguna) aplikasi. Tahap ini adalah tahap yang paling
penting dan sangat menentukan keluaran dari proses web usage mining. Tahap
inijuga memiliki beberapa algoritma dan teknik yaitu :
o Statistical Analysis (analisis statistik), yaitu teknik yang paling
banyakdigunakan dalam mendapatkan informasi atau pengetahuan dari
pola aksesuser. Analisis statistik dapat disajikan dalam berbagai bentuk
analisis denganberagam variabel yang menjadi parameter analisis.
Contoh analisis yang dapatdihasilkan adalah pola akses user yang dilihat
dari waktu akses untuk setiapharinya.
o Association Rules, yaitu teknik yang dapat diterapkan pada Web
UsageMining, dengan contoh keluaran yang dihasilkan berupa pola akses
terhadaphalaman-halaman web. Dari pola tersebut kemudian dapat
diketahui halamanmana saja yang selalu diakses secara bersamaan oleh
user. Hal tersebut dapatdigunakan sebagai dasar untuk perancangan atau
penyusunan kembalihalaman web agar menjadi lebih efektif.
o Clustering, yaitu teknik yang berupa proses pengelompokan
sekumpulanobjek fisik maupun abstrak ke dalam kelas tertentu
berdasarkan kesamaannya.Dalam kaitannya dengan web usage mining,
teknik clustering seringdigunakan untuk menentukan segmentasi pasar
pengunjung suatu situsecommerce berdasarkan kesamaan pola akses
maupun demografinya.
o Classification, yaitu teknik yang berupa proses pengelompokan
berdasarkankelas yang sudah didefinisikan sebelumnya. Classification
terbagi menjadidua, yaitu proses membangun model sesuai dengan kelas
yang sudahditentukan dan proses menerapkan model untuk
mengklasifikasi sekumpulandata.
o Sequential Pattern, yaitu teknik yang digunakan untuk menganalisis
polaurutan akses halaman web oleh user. Tren urutan pola akses user
dapatdigunakan untuk memprediksikan tren di masa yang akan datang
atau untukmengatur penempatan menu.
o Dependency Modeling, yaitu teknik yang berusaha mencari
ketergantunganantara satu variabel dengan variabel yang lain dalam
web. Hal ini bergunauntuk memprediksikan pola di masa mendatang.
 Tahap Pattern Analysis
Tahap ke tiga ini merupakan fase terakhir dalam web usage mining. Pada fase ini
dilakukan proses visualisasi hasil analisis pola yang telah dikerjakan pada langkah
sebelumnya. Penyajian data menjadi hal yang penting dalam langkah ini,
tergantung pada kebutuhan user dan bisnis. Dari hasil visualisasi tersebut, dapat
dibuat suatu keputusan (action) misalnya keputusan untuk mengubah tampilan
website, melakukan optimasi navigasi website, meningkatkan kemampuan
websitedengan melakukan caching halaman-halaman tertentu yang sering
dikunjungi.
Daftar Pustaka
https://sis.binus.ac.id/2016/12/15/teori-text-mining-dan-web-mining/
https://id.wikipedia.org/wiki/Teori_graf
http://analisis-proses-bisnis-koperasi.blogspot.com/2013/04/pengertian-data-mining-text-
mining-dan.html
http://phandusugandhi.blogspot.com/2012/01/penerapan-teori-graf-pada-jaringan.html
https://www.itb.ac.id/news/read/56994/home/peran-dan-aplikasi-teori-graf-dalam-
kehidupan-sehari-hari
http://eprints.akakom.ac.id/7289/4/4_961087_BAB_III.pdf

Spidering2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Spidering2

Diunggah oleh

Hak Cipta:

Disusun oleh :

Yudhistira Eka Paksi Muhammad

Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun

 Pembersihan data dan integritas data (Cleaning & Integration)

Anda mungkin juga menyukai