Oleh :
SONALITA WIGUNA
5302413052
DATA MINING ROMBEL 2
REVIEW PAPER
Preprocessing Data Web Log Untuk Kluster Pengguna Web Menggunakan
Algoritma K-Means
Yuhefizar, Yoyon K Suprapto, Mochamad Hariadi, I Ketut Eddy P.
Prodi Manajemen Informatika, Jurusan Teknologi Informasi, Politeknik Negeri Padang,
Pada
server yang berbentuk single file di ekstrak dan di konversi menjadi field -field
database. Proses konversi dilakukan dengan memanfaatkan software pengolah data
spreadsheet dan aplikasi PHPMyAdmin. Data log diakses menggunakan software
spreadsheet, kemudian dilakukan proses memisahkan data menjadi kolom. Data ini
kemudian di impor ke aplikasi PHPMyAdmin menjadi sebuah database. Data cleaning
adalah proses membersihkan data dari item data yang tidak memberikan informasi
berguna dalam analisis selanjutnya. Item data yang dihapus adalah file style (.css, .js),
file gambar (.jpg, .gif, .jpeg, dll), file audio video (.wav, .avi, .wmf, dll). Item data
tersebut tidak memberikan informasi yang bermanfaat terhadap analisa pola tingkah
laku dari pengguna website. Pageview identification adalah proses dalam menentukan
halaman web mana saja yang diakses dan siapa saja yang mengakses halaman web
tersebut. User identification adalah proses menentukan interaksi user pada website serta
membedakan interaksi antar user. Untuk keperluan cluster pengguna web, dilakukan
user identification dengan menghitung hits kunjungan user pada halaman website
dengan algoritma.
Dari paper Preprocessing Data Web Log Untuk Kluster Pengguna Web
Menggunakan Algoritma K-Means dapat disimpulkan bahwa data preprocessing
merupakan bagian yang sangat penting dalam proses website usage mining. Kualitas
dari proses website usage mining sangat ditentukan oleh ketersediaan data yang valid
dan akurat. Oleh karena itu proses ini membutuhkan waktu yang lama.
Exponentian Smothing
Moving Average