Achmad Solichin1
Ferdiansyah2
Wahyu Pramusinto3
1 achmad.solichin@budiluhur.ac.id
2 ferdiansyah@budiluhur.ac.id
3 wahyu.pramusinto@budiluhur.ac.id
Abstraksi
Website merupakan suatu layanan internet yang sudah digunakan oleh seluruh dunia. Website
mengandung data dan informasi yang sangat besar sehingga sangat berpotensi untuk dilakukan
penggalian informasi agar menghasilkan suatu pengetahuan (knowledge) yang berguna bagi
masyarakat. Proses penggalian informasi terhadap website tersebut dapat dilakukan terhadap tiga
hal, yaitu terhadap isi website yang disebut web content mining, terhadap struktur website yang
disebut web structure mining dan terhadap penggunaan atau akses website yang disebut web usage
mining. Makalah ini berusaha menjelaskan mengenai bentuk penggalian informasi yaitu web usage
mining. Dalam makalah ini akan dijelaskan mengenai bagaimana proses penerapan dan implementasi
web usage mining, berbagai aplikasi web usage mining dan penggunaannya di kehidupan sehari-hari.
Makalah ini diharapkan dapat memberikan gambaran mengenai proses penggalian informasi website,
terutama proses web usage mining.
1. Pendahuluan
World Wide Web atau WWW merupakan salah satu fenomena teknologi yang berkembang
sangat pesat saat ini. WWW menyediakan berbagai layanan informasi mengenai berita, iklan,
pendidikan, e-commerce dan sebagainya. Informasi yang tersedia dalam WWW tersebut memiliki
ukuran yang sangat besar dan terdistribusi secara global di seluruh dunia. Web juga mengandung
kekayaan informasi dilihat dari struktur dan penggunaannya (web usage). Web merupakan kumpulan
data dan informasi yang sangat berpotensi untuk dilakukan penggalian (mining) agar menghasilkan
pengetahuan (knowledge) yang dapat berguna bagi masyarakat maupun pihak-pihak tertentu.
Data dan informasi yang tersimpan di dalam web memiliki karakteristik yang berbeda dengan
data yang tersimpan dalam penyimpanan konvensional seperti DBMS. Dalam (Han, et al., 2006)
disebutkan beberapa karakteristik web sebagai berikut:
• Web memiliki ukuran yang terlalu besar sehingga tidak terlalu efektif jika diterapkan dengan
menggunakan data warehouse dan data mining biasa. Ukuran data dalam web mencapai ribuan
terabyte dan akan terus berkembang. Saat ini begitu banyak perusahaan dan organisasi yang
mempublikasikan berbagai informasi perusahaan di sebuah website. Dengan ukuran yang begitu
besar, akan sangat sulit jika harus membangun sebuah data warehouse yang akan menyimpan data
dan informasi tersebut.
• Tingkat komplektivitas dari halaman-halaman web jauh lebih tinggi dibanding dokumen dalam
format teks biasa. Halaman web memiliki struktur yang sangat beragam. Apalagi jika dilihat dari
isi atau content yang disajikan di halaman web, memiliki bahasa, gaya penulisan, struktur
penulisan dan tampilan yang beragam.
• Informasi yang disajikan di web bersifat dinamis. Informasi seperti berita, stock market, saham,
dan sebagainya dapat berkembang dan berubah setiap saat.
• Web memiliki ragam pengguna yang tersebar di seluruh dunia. Berdasarkan survey dari Netcraft,
internet hingga bulan November 2009 memiliki lebih dari 240 juta alamat situs, dan masih terus
berkembang. Pengguna dari situs-situs tersebut memiliki latar belakang, demografi, minat, dan
tujuan yang berbeda dalam mengakses web.
• Hanya sedikit dari informasi yang disajikan di web benar-benar bermanfaat (sesuai) dengan
pengguna. Fakta tersebut merupakan tantangan untuk menemukan suatu metode atau teknik
menyajikan informasi yang tepat bagi user yang tepat.
A-284
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
Untuk menggali informasi yang terdapat di dalam web, dapat digunakan mesin pencari (search-
engine) seperti Google, Yahoo dan MSN. Namun penggunaan mesin pencari belum cukup efektif
untuk mendapatkan informasi yang tepat di halaman web karena mesin pencari pada umumnya
menampilkan hasil pencariannya berdasarkan keyword yang diberikan. Sebagai contoh pencarian
dengan menggunakan keyword ‘data mining’, selain menampilkan informasi tentang data mining
dalam konteks ilmu komputer, informasi mengenai istilah mining dalam disiplin ilmu lain juga
ditampilkan.
Karena keterbatasan kemampuan dari mesin pencari tersebut, muncul konsep baru mengenai
web mining yang pertama kali dikenalkan oleh Etzioni Oren dalam (Oren, 1996). Menurut Etzioni
Oren, web mining diartikan sebagai suatu usaha mengaplikasikan teknik data mining untuk menggali
dan mengekstrak informasi yang berguna dari dokumen-dokumen yang tersimpan dalam halaman web
secara otomatis. Meskipun memiliki akar terminologi yang sama dengan data mining, namun web
mining memiliki perbedaan dari data mining, diantaranya berhubungan dengan sifat datanya yang
tidak terstruktur dan sumber datanya yang tidak disimpan di sebuah data warehouse namun tersebar di
berbagai sumber.
Web mining terbagi menjadi 3 (tiga) kategori yaitu web content mining, web structure mining
dan web usage mining (Madria, et al., 1999). Web content mining berfokus pada usaha untuk menggali
informasi dari isi atau content yang disajikan di web. Teknik web content mining lebih banyak
berhubungan dengan disiplin information retrieval (IR). Sedangkan web structure mining, membahas
mengenai penggalian informasi web dilihat dari struktur halaman web itu sendiri. Web structure
mining banyak digunakan untuk menggali keterkaitan antara suatu halaman web dengan halaman web
lainnya. Sementara web usage mining, berusaha melihat pola atau pattern dari user dalam mengakses
web.
A-285
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
A-286
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
1. Statistical analysis.
Teknik analisa statistik merupakan teknik yang paling banyak digunakan dalam
mendapatkan knowledge dari pola akses user (Cooley, 2000). Analisis statistik dapat
disajikan dalam berbagai bentuk analisis dengan beragam variabel yang menjadi
parameter analisis. Contoh analisis yang dapat dihasilkan adalah pola akses user yang
dilihat dari waktu akses untuk setiap harinya.
2. Association rules.
Algoritma association rules dalam data mining pertama kali diusulkan oleh Agrawal,
Imielinski dan Swami (Agrawal, et al., 1993). Association rule juga dapat diterapkan
dalam web usage mining. Contoh keluaran yang dapat dihasilkan yaitu mengenai pola
akses terhadap halaman-halaman dalam web, dimana dapat diketahui halaman mana saja
yang selalu diakses secara bersamaan oleh user. Hal tersebut dapat digunakan sebagai
dasar untuk merancang atau menyusun kembali halaman web agar lebih efektif.
3. Clustering.
Clustering merupakan proses mengelompokkan sekumpulan object fisik maupun abstrak
ke dalam kelas tertentu berdasarkan kesamaannya (Han, et al., 2006). Dalam kaitannya
dengan web usage mining, teknik clustering sering digunakan untuk menentukan
segmentasi pasar pengunjung suatu situs e-commerce berdasarkan kesamaan pola akses
maupun demografinya.
4. Classification.
Classification merupakan proses pengelompokan berdasarkan kelas yang sudah
didefinisikan sebelumnya. Proses classification terbagi menjadi dua, yaitu proses
membangun model sesuai dengan kelas yang sudah ditentukan dan proses menerapkan
model untuk mengklasifikasikan sekumpulan data (Han, et al., 2006).
5. Sequential Pattern.
Sequential Pattern digunakan untuk menganalisa pola urutan akses halaman web oleh
user. Tren urutan pola akses user dapat digunakan untuk memprediksikan tren di masa
mendatang atau untuk mengatur penempatan iklan.
6. Dependency Modeling.
Dependency modeling berusaha mencari ketergantungan antara satu variabel dengan
variabel yang lainnya dalam web. Hal ini berguna untuk memprediksikan pola di masa
mendatang.
A-287
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
Adapun manfaat penerapan atau penggunaan web usage mining tersebut, antara lain:
1. Personalization
Personalisasi merupakan suatu usaha untuk menyajikan layanan web sesuai dengan preferensi atau
kenyamanan tiap user atau pengunjung. Personalisasi yang dilakukan dalam situs e-commerce
secara langsung akan meningkatkan penjualan maupun tingkat kepuasan pelanggan (user).
Personalisasi dalam e-commerce antara lain dengan penerapan strategi cross-selling dan up-
selling. Contoh aplikasi yang bertujuan melakukan personalisasi, adalah WebWatcher (Joachims,
et al., 1997), SiteHelper (Ngu, et al., 1997), PWUM (Ouamani, et al., 2007), Koinotites (Pierrakos,
et al., December 2001) dan Letizia (Lieberman, 1995).
2. System Improvement
Performa dari suatu website dan layanan di dalamnya merupakan hal yang utama untuk menjamin
kenyamanan user (pengunjung). Berdasarkan pola akses user yang dihasilkan dari proses web
usage mining, dapat diambil suatu keputusan terkait dengan peningkatan performa layanan web.
Misalnya jika ternyata ditemukan pola bahwa layanan tertentu cukup sering diakses, maka dapat
dilakukan mekanisme caching baik di webserver maupun di proxy. Langkah peningkatan performa
sistem lainnya seperti load balancing, network transmission, data distribution, fraud detection,
intrussion detection juga dapat diambil berdasarkan hasil dari web usage mining.
3. Site Modification
Website yang adaptif sesuai dengan pola perilaku user tentu akan memberi kenyamanan lebih bagi
user. Hasil analisis terhadap pola perilaku user dalam mengakses suatu halaman dapat digunakan
untuk menentukan apakah halaman yang bersangkutan sudah disajikan dengan baik atau belum.
4. Bussiness Intelligence
Berdasarkan hasil yang dikeluarkan oleh web usage mining beserta web mining yang lainnya
selanjutnya dapat disusun sebuah business intelligence (BI). BI berbasis web mining dapat
mempermudah pihak eksekutif dalam memonitor performa website bisnisnya. BI akan berisi
rangkuman dari beberapa sumber laporan. Pemanfaatan web usage mining untuk membentuk suatu
BI memang masih terus dikembangkan, salah satunya adalah framework yang diusulkan oleh Ajith
Abraham dalam (Abraham, 2000). Contoh aplikasi web usage mining yang masuk kategori BI
adalah SurfAid dan Buchner.
5. Usage Characterization
Karakter user dalam menggunakan web berbeda satu dengan yang lainnya. Berdasarkan hasil dari
proses web usage mining, karakter user dapat diidentifikasi. Informasi karakter user dalam
mengakses web dapat dijadikan dasar untuk meningkatkan performa dari website maupun aplikasi
terkait lainnya seperti browser dan web server.
Selain pembagian di atas, SaiMing Au dalam (Au, 2002) memberikan beberapa contoh dari aplikasi
web usage mining dalam tabel berikut ini.
A-288
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
A-289
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
WUM dapat dijalankan di sistem operasi berbasis Windows maupun Linux. Di website
resminya tersedia instalasi untuk Windows maupun Linux. Untuk menjalankan WUM, saat ini masih
harus dilakukan melalui command prompt. Berikut ini tampilan awal dari WUM.
Untuk melakukan proses web mining, dapat mengikuti langkah-langkah sebagai berikut:
Pertama lakukan proses “Create Mining Base” dengan mengakses menu File > Create Mining
Base. Isi dengan informasi nama mining base beserta path tempat menyimpan file log. Tampilannya
sebagai berikut :
A-290
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
Selanjutnya kita dapat melakukan import log file yang akan di-mining. Buka menu File > Import Log
File dan tentukan log file-nya. Setelah ditekan tombol Import, maka akan dilakukan proses cleansing
terhadap file log dan akan ditampilkan informasi berapa baris file log yang berhasil di-import. Lihat
gambar sebagai berikut:
Langkah selanjutnya adalah meng-generate sesi user berdasarkan log file yang telah di-import. Buka
menu Analyze > Create Visitor’s Session dan tentukan berapa waktu tunggu sesi (threshold) yang
diinginkan. Klik tombol OK untuk mengeksekusi proses ini.
Tahap selanjutnya adalah melakukan pattern discovery melalui menu Analyze > Create Aggregated
Log (Database). Klik OK untuk menjalankan proses ini.
Hasil proses mining dapat diakses melalui menu Visualizer baik dalam bentuk teks, tabel maupun
grafis. Dua gambar berikut ini merupakan contoh hasil proses mining yang disajikan dalam bentuk
graph dan tree.
A-291
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
4. Kesimpulan
Di dalam makalah ini, sudah dibahas mengenai web usage mining, termasuk proses, aplikasi dan
penggunaannya. Web usage mining sebagai salah satu bagian dari web mining berusaha menggali
pengetahuan yang tersembunyi dari sumber data yang sangat besar yaitu web. Saat ini masih terus
dilakukan penelitian terkait web mining maupun web usage mining untuk mendapatkan algoritma,
teknik dan metodologi yang lebih efektif dan efisien.
Salah satu aplikasi (tools) yang mencoba mensimulasikan proses yang terjadi dalam web usage
mining adalah Web Utilization Miner (WUM), dimana aplikasi web usage mining ini memiliki
kelebihan dari sisi grafis maupun fitur bahasa query yang disediakan, yaitu MINT. Aplikasi WUM ini
masih sangat sederhana dan sangat terbuka untuk dilakukan pengembangan karena berbasis teknologi
Java dan open source.
A-292
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
DAFTAR PUSTAK A
[1] Abraham Ajith Natural Computation for Business Intelligence from Web Usage Mining
[Conference]. - Korea : [s.n.], 2000.
[2] Agrawal R., Imielinski T. and Swami A Mining association rules between sets of items in
large databases [Conference]. - Washington, DC : SIGMOD'93, 1993.
[3] Au SaiMing A Study of Application of Web Mining For E-Commerce: Tools and
Methodoology [Journal] // International Journal of The Computer, The Internet and
Management. - Tak Chee Avenue, Hong Kong : [s.n.], 2002. - pp. 1-14.
[4] Berendt B. [et al.] Measuring the accuracy of sessionizers for web usage analysis.
[Conference]. - Chicago : Proceedings of the International Workshop on Web Mining, 2001.
[5] Consortium W.W.W The common logfile format [Online] // Logging in W3C httpd. - 1995. -
12 14, 2009. - http://www.w3.org/Daemon/User/Config/Logging.html#common-logfile-format.
[6] Cooley R. Web Usage Mining: Discovery and Application of Interesting Patterns from Web
data [Report]. - [s.l.] : PhD thesis, Dept. of Computer Science, University of Minnesota, 2000.
[7] Cooley R., Mobasher B. and Srivastava J. Data preparation for mining world wide Web
browsing patterns [Conference] // Knowledge and Information Systems. - 1999.
[8] Cooley R., Tan Pang-Ning and Srivastava J. WebSIFT: The Web Site Information Filter
System [Conference] // Department of Computer Science, University of Minnesota. - 1999.
[9] Cooley R., Tan P-N. and Srivastava J Discovery of interesting usage patterns from web data.
[Conference] // WEBKDD. - 1999. - pp. 163-182.
[10] Han Jiawei and Kamber Micheline Data Mining: Concepts and Techniques [Book]. - [s.l.] :
Morgan Kaufmann Publisher, 2006.
[11] Joachims T., Freitag D. and Mitchell T. Webwatcher: A tour guide for the world wide web.
[Conference]. - Nagoya, Japan : The 15th International Conference on Artificial Intelligence,
1997.
[12] Kimpball Ralph and Merz Richard The Data Webhouse Toolkit: Building the Web-Enabled
Data Warehouse [Book]. - [s.l.] : Wiley Computer Publishing, 2000.
[13] Lieberman H. Letizia: An agent that assists web browsing [Conference]. - Montreal, Canada :
Proceedings of the 1995 International Joint Conference on AI, 1995.
[14] Madria S.K [et al.] Research issues in Web data mining [Conference] // Proceedings of Data
Warehousing and Knowledge Discovery. - [s.l.] : First International Conference, 1999. - pp.
303-312.
[15] Ngu D.S.W. and Wu X. SiteHelper: A Localized Agent that Helps Incremental Exploration of
the World Wide Web [Conference]. - Santa Clara, CA : 6th International World Wide Web
Conference, 1997.
[16] Oren Etzioni The world wide Web: Quagmire or Gold Mine [Conference] // Communications
of the ACM. - [s.l.] : ACM, 1996. - pp. 65-68.
[17] Ouamani F. [et al.] PWUM: A Web Usage Mining Multi-Agent Architecture for Web
Personalization [Conference]. - [s.l.] : IADIS International Conference WWW, 2007.
[18] Pierrakos D. [et al.] KOINOTITES: A Web Usage Mining Tool for Personalization
[Conference]. - Patras : Proceedings of the Panhellenic Conference on Human Computer
Interaction, Dec 2001.
[19] Pitkow J. In search of reliable usage data on the WWW. [Conference]. - Santa Clara,
California : Proceedings of the 6th International World Wide Web Conference, 1997. - pp. 451-
463.
[20] Scime Anthony Web Mining: Applications and Techniques [Book]. - [s.l.] : Idea Group
Publishing, 2005. - 1591404142.
[21] Spiliopoulou M. and Faulstich L.C. WUM: A Web Utilization Miner [Conference]. -
Valencia, Spain : EDBT Workshop WebDB98, Springer Verlag, 1998.
[22] Srivastava J. [et al.] Web Usage Mining: Discovery and Applications of Usage Patterns from
Web Data [Conference]. - Minneapolis : Department of Computer Science and Engineering,
University of Minnesota, 2000.
[23] Wang Yan Web Mining and Knowledge Discovery of Usage Patterns [Conference]. - [s.l.] : CS
748T Project, 2000.
A-293
Seminar Nasional Multidisiplin Ilmu (SENMI-2010)
Universitas Budi Luhur ISSN : 2087 - 0930
[24] Wu Kun-lung, Yu Philip S and Ballman Allen Speedtracer: A web usage mining and analysis
tool [Journal]. - [s.l.] : IBM Systems Journal, 1998. - Vol. 38.
A-294