6 13 1 PB PDF
6 13 1 PB PDF
JAVA Journal of Electrical and Electronics Engineering, Vol. 8, No.1, Apr . 2010, ISSN 1412-8306
32
IV. PEMBAHASAN
4.1 Peta Sistem
Tahapan preprocessing dan klusterisasi dilakukan
seperti terlihat pada gambar 2.
4.2 Format Data Web Log
Data web log yang dibahas pada paper ini adalah data
web log yang berasal dari web server. Format standar data
web log dari apache web server [8][9] seperti berikut :
223.255.224.12 - - [23/Oct/2011:19:06:52 +0700] "GET
/katalog.html
HTTP/1.1"
200
19109
"http://etokobuku.com/penulis.html" "Mozilla/5.0 (Windows NT
6.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1"
1. 223.255.224.12 merupakan IP Address dari pengguna
website.
2. - -, user ID,dalam hal ini kosong (anonim).
3. [23/Oct/2011:19:06:52 +0700], informasi tanggal dan
jam akses serta zona waktu yang digunakan.
4. "GET /katalog.html HTTP/1.1", metode akses,
halaman yang diakses serta protokol yang digunakan.
5. 200, status akses.
6. 19109, ukuran dari halaman web yang sedang diakses.
7. http://e-tokobuku.com/penulis.html, halaman web
referer
8. "Mozilla/5.0
(Windows
NT
6.1;
rv:7.0.1)
Gecko/20100101 Firefox/7.0.1", user agent, termasuk
didalamnya browser yang digunakan, sistem operasi
serta versinya.
Data web log ini tersimpan pada sebuah single file
dengan jumlah data mencapai ribuan bahkan lebih
tergantung kepada statistik kunjungan dari sebuah website.
JAVA Journal of Electrical and Electronics Engineering, Vol. 8, No.1, Apr . 2010, ISSN 1412-8306
33
(.css, .js), file gambar (.jpg, .gif, .jpeg, dll), file audio video
(.wav, .avi, .wmf, dll). Item data tersebut tidak memberikan
informasi yang bermanfaat terhadap analisa pola tingkah
laku dari pengguna website.
Query yang diberikan pada tahap ini adalah :
DELETE FROM namatabel WHERE `target` LIKE
'%.ico' OR `URL Target` LIKE '%.gif' OR `URL
Target` LIKE '%.jpg' OR `URL Target` LIKE '%.jpeg'
OR `URL Target` LIKE '%.wav' OR `URL
Target`LIKE '%.avi' OR `URL Target` LIKE '%.wmf'
OR `URL Target` LIKE '%bot%' OR `URL Target`
LIKE '%.txt' OR `URL Target` LIKE '%.css';
(1)
(2)
Algoritma 1 :
Input : DB Log File
Output: File Excell statistik user identification
Mulai
1. buka koneksi ke database
2. lakukan perulangan sesuai jumlah data unik user
3. Siapkan variabel yang dibutuhkan
4. hitung hits user per halaman web, simpan ke
variabel
JAVA Journal of Electrical and Electronics Engineering, Vol. 8, No.1, Apr . 2010, ISSN 1412-8306
34
5. Kembali ke langkah 2
6. tampilkan output ke format file excell.
7. tutup database.
Selesai.
Halaman web
A
B
C
D
E
F
G
H
I
J
K
L
M
N
Halaman web
V. PERCOBAAN
Berikut ini adalah hasil percobaan dari tahapan
preprocessing dan klusterisasi yang diuji pada data log
www.e-tokobuku.com sesuai dengan query dan algoritma 1.
Data log diambil dari tanggal 23 Oktober hingga 11
Nopember 2011.
O
P
Q
R
S
T
Jumlah
Pageview
497
51
66
54
80
68
75
74
46
74
51
115
38
25
Jumlah
Pageview
8
11
14
9
18
4
Jumlah Unik
User
363
46
59
45
76
64
69
68
44
66
49
106
36
25
Jumlah Unik
User
8
11
13
9
16
4
Jumlah Data
Sebelum
Cleaning
15.473 data
Setelah
Cleaning
1.378 data
JAVA Journal of Electrical and Electronics Engineering, Vol. 8, No.1, Apr . 2010, ISSN 1412-8306
35
Gambar 4 : Hasil Cluster Pengguna Web Dengan final cluster center terlihat pada tabel 6.
Tabel 6 : Final Cluster Center
VI. KESIMPULAN
Data preprocessing merupakan bagian yang sangat
penting dalam proses website usage mining. Kualitas dari
proses website usage mining sangat ditentukan oleh
ketersediaan data yang valid dan akurat. Oleh karena itu
proses ini membutuhkan waktu yang lama.
Dalam paper ini, kami mengajukan metode
preprocessing data dengan pendekatan query (lihat
gambar 2), yaitu data web log (raw data) dikonversi
menjadi DBMS terlebih dahulu kemudian tahapan
JAVA Journal of Electrical and Electronics Engineering, Vol. 8, No.1, Apr . 2010, ISSN 1412-8306
36
DAFTAR PUSTAKA
[1] Yuhefizar, 2008. 10 Jam Menguasai Internet dan
Aplikasinya. Jakarta. PT. Elexmedia Komputindo,
ISBN : 978-979-27-3470-6.
[2] Miniwatts Marketing Group, 2011. Internet Users In
The
World.
http://www.internetworldstats.com/stats.htm Tanggal
akses 25 Oktober 2011
[3] Domain Tools, 2011. Domain Counts & Internet
Statistics.
http://www.domaintools.com/internetstatistics. Tanggal Akses 28 Oktober 2011
[4] Chen H. W., Zong X, Wei L.C., Haw Y.J., 2004.
World Wide Web Usage Mining Systems and
Technologies. Journal Systemic, Cybernetic and
Informatics, Volume 1 No. 4. Pp 53 59.
[5] Raju G.T., Satyanarayana P.S., 2008. Knowledge
Discovery from Web Usage Data: Complete
Preprocessing Methodology. IJCSNS International
Journal of Computer Science and Network Security,
VOL.8 No.1. Pp 179 186.
[6] Bing Liu, 2007. Web Data Mining : Exploring
Hyperlinks, Contents, and Usage Data. Chicago.
Springer.
[7] Pani S.K., Panigrahy L., Sankar V.H., Ratha B.K.,
Mandal A.K., Padhi S.K., 2011. Web Usage
Mining: A Survey on Pattern Extraction from Web
Logs. International Journal of Instrumentation,
JAVA Journal of Electrical and Electronics Engineering, Vol. 8, No.1, Apr . 2010, ISSN 1412-8306