Anda di halaman 1dari 7

Kesimpulan Jurnal :

Pertambangan dan pelacakan berkembang tren pengguna web dari server web log besar

1. PENDAHULUAN

Baru-baru ini, organisasi online menjadi tertarik untuk melacak perilaku pengguna di
situs Web mereka untuk lebih memahami dan memenuhi kebutuhan mereka. Sebagai
respon terhadap kebutuhan ini, penggunaan alat-alat pertambangan web dikembangkan
untuk membantu mereka menggunakan web log untuk menemukan pola-pola
penggunaan atau profil. Namun, karena penggunaan situs web log sedang terus
dihasilkan, dalam beberapa kasus, sejumlah aliran data dinamis, alat yang paling yang
ada masih belum mampu menangani sifat mereka berubah atau tumbuh ukurannya.
Makalah ini mengusulkan sebuah kerangka scalable yang mampu melacak sifat
perubahan perilaku pengguna di situs Web, dan mewakili dalam satu set berkembang
penggunaan profil. Profil tersebut dapat menawarkan representasi terbaik dari
penggunaan aktivitas pengguna pada setiap waktu, dan mereka dapat digunakan sebagai
masukan bagi aplikasi tingkat tinggi seperti sistem rekomendasi web. Tujuan khusus
kami adalah untuk membuat ceruk unsupervised clustering hirarkis (HUNC) algoritma
yang lebih terukur, dan untuk menambahkan pelacakan profil terpadu dan validasi cluster
berbasis itu. Percobaan kami pada data web log yang sebenarnya mengkonfirmasi
validitas dari pendekatan kami untuk kumpulan data besar yang sebelumnya tidak dapat
ditangani dalam satu tembakan

Organisasi-organisasi yang menyediakan layanan online, mulai dari transaksi e-


commerce untuk mendokumentasikan dan multimedia browsing repositori, berada dalam
kompetisi yang berkesinambungan satu sama lain untuk mempertahankan pelanggan
yang ada dan untuk memancing yang baru. Selain itu, persaingan ini meningkat karena
relatif mudahnya memulai sebuah bisnis online dan fakta bahwa website pesaing sering
hanya satu atau dua klik pergi. Sifat menantang pasar online telah mendorong perusahaan
online untuk memulai penggunaan data monitoring aktivitas online mereka untuk lebih
memahami dan memuaskan pengguna situs web mereka. Namun, jumlah yang luar biasa
dari online clickstreams berlangsung setiap hari, yang menghasilkan sejumlah besar data,
seperti yang menggunakan metode analisis konvensional untuk menganalisis adalah tidak
mungkin dan tidak biaya-efektif. Akibatnya, ia telah menjadi keharusan untuk
menggunakan data otomatis dan efektif pertambangan metode untuk mengubah data
mentah ke dalam pengetahuan yang dapat membantu organisasi online untuk lebih
memahami pengguna mereka.

Web pertambangan penggunaan adalah proses penerapan teknik data mining pada data
log web untuk menganalisis pola aktivitas online lazim dan ekstrak profil pengguna dari
mereka (misalnya satu set cluster penggunaan dan URL yang relevan untuk setiap
cluster). Profil tersebut kemudian dapat digunakan dalam aplikasi tingkat tinggi seperti
rekomendasi atau jasa personalisasi. Telah ada cukup banyak penelitian di bidang
pertambangan penggunaan web [1-8]. Namun, ada penelitian rinci sangat sedikit yang
membahas masalah evolusi skalabilitas dan diberi aliran besar data clickstream dan
sifatnya berkembang.

Dalam pembahasan ini mengusulkan kerangka kerja baru yang dapat menangani
perubahan perilaku pengguna dari sebuah situs web dengan terus-menerus menemukan,
menjaga, dan selanjutnya memvalidasi nomor tak dikenal cluster dan pola penggunaan
yang berhubungan / profil dari waktu ke waktu. Tujuan khusus kami adalah untuk
membuat ceruk unsupervised clustering hirarkis (HUNC) algoritma yang lebih terukur,
dan untuk menambahkan pelacakan profil terpadu dan validasi cluster berbasis itu. Dalam
kerangka ini, web pertambangan penggunaan dilakukan secara teratur untuk menemukan
profil pengguna baru, dan pada setiap periode waktu baru, clickstreams pengguna baru
atau sesi tersebut dibandingkan dengan profil periode sebelumnya, maka profil tersebut
akan secara bertahap mengambil diperbarui dalam account mereka kesamaan ke
clickstreams baru. Setiap kali sesi baru yang cocok dengan profil yang ada, digunakan
untuk memperbaruinya, maka sesi baru akan dibuang, sehingga sangat mengurangi
jumlah data yang baru yang akan ditambang pada periode baru. Data yang telah direduksi
hanya tersisa terdiri dari sesi baru, yang tidak cocok dengan profil yang ada, kemudian
digunakan untuk menemukan profil baru yang akan ditambahkan ke profil yang ada
diperbaharui. Ini hasil pendekatan dalam penemuan profil scalable yang selanjutnya
menyesuaikan dengan tren penggunaan saat ini.

Kontribusi dari makalah ini dapat diringkas sebagai berikut: (i) meningkatkan skalabilitas
penemuan profil, (ii) pelacakan evolusi profil ditemukan dari waktu ke waktu dengan
memperbarui profil arsip secara on-pergi, (iii) menghasilkan user-friendly profil yang
dapat digunakan dalam aplikasi tingkat tinggi, (iv) mengevaluasi kualitas penemuan
profil diusulkan.

2. HUBUNGAN KERJA
2.1. Ikhtisar Pertambangan Penggunaan Web

Web pertambangan penggunaan adalah proses penerapan teknik data mining untuk
mengekstrak pengetahuan yang bermanfaat seperti pola penggunaan yang khas dari data
log web. Analisis pola penggunaan ditemukan dapat membantu organisasi online
mendapatkan berbagai keuntungan bisnis, seperti mengembangkan strategi pemasaran
produk lintas, meningkatkan kampanye promosi, dan personalisasi web. penelitian awal
telah dilakukan di web pertambangan penggunaan [1], [3], [5], [6], [12/09] untuk
mengatasi tantangan pra-pengolahan, penggunaan data analisis dan pemodelan, dan
pertambangan data yang berkisar dari clustering untuk asosiasi dan pertambangan aturan
sekuensial. Beberapa alat demikian telah dikembangkan [1], [2], [6], [7], [8] untuk
menyimpulkan pola penggunaan dari data penggunaan web (penemuan pola) dan
kemudian untuk menafsirkan pola penggunaan ini (analisis pola).

2.2. Penggunaan web Proses Pertambangan

Biasanya, menemukan pola penggunaan web, seperti profil atau model prediksi, terdiri
dari tiga langkah: pra-pengolahan data penggunaan baku, menemukan pola dari data
sebelum diproses, dan menganalisa pola-pola ini ditemukan.
Ada dua tugas utama dalam pra-pengolahan: pembersihan data, dan identifikasi transaksi
juga dikenal sebagai sessionization. Data membersihkan menghilangkan item yang tidak
relevan seperti permintaan gambar dan permintaan mesin pencari dari log server.
Kelompok-kelompok transaksi proses identifikasi urutan permintaan halaman ke dalam
unit logis, yang masing-masing disebut sesi yang merupakan suatu set halaman yang
dikunjungi oleh pengguna tunggal dalam jangka waktu yang telah ditetapkan.

Setelah pra-pengolahan, sesi web digunakan sebagai masukan bagi metode penemuan
pola yang biasanya berakar pada bidang-bidang seperti data mining, kecerdasan buatan,
atau statistik. Metode-metode penemuan mungkin termasuk: analisis statistik,
pertambangan pola sekuensial [13], analisis path [8], [11], [12], [14], asosiasi
pertambangan pemerintahan [15], [16], klasifikasi [17], dan clustering [4], [9], [10].

Setelah penemuan, pola penggunaan dianalisis untuk lebih memahami dan menafsirkan
mereka, menggunakan berbagai perangkat analisis dari bidang Statistik, grafik,
visualisasi, atau query database. Contoh alat analisis yang dapat ditemukan dalam Ref.
[7], [12], [15].

2.3. The Niche Unsupervised Algoritma Hierarchical Clustering

HUNC adalah versi hirarkis dari ceruk tanpa pengawasan clustering (UNC) algoritma.
UNC merupakan suatu pendekatan evolusioner untuk clustering diusulkan oleh Nasraoui
dan Krishnapuram di Ref. [5], yang menggunakan algoritma genetika (GA) [18]
berkembang populasi prototipe cluster melalui generasi persaingan dan reproduksi. UNC
telah terbukti kuat untuk kebisingan, tetapi disusun berdasarkan representasi ruang
Euclides metrik data. Kemudian, algoritma HUNC [4] telah diusulkan untuk
menghasilkan hirarki cluster yang memberikan lebih wawasan ke dalam proses
pertambangan web, dan membuatnya lebih efisien dalam hal kecepatan. HUNC tidak
menganggap jumlah cluster di muka, dapat memberikan profil untuk menyesuaikan
tingkat detail yang diinginkan, dan tidak memerlukan analisis derivasi dari prototipe. Hal
ini memungkinkan HUNC untuk menggunakan kemiripan khusus tindakan hanya
didasarkan pada pola akses user. HUNC algoritma ditampilkan dalam Algoritma 1.

2.4. Profil Pertambangan Berkembang

Kebanyakan penelitian di web pertambangan telah difokuskan terutama pada data yang
dikumpulkan selama jangka waktu tertentu. Namun, karena sifat dinamis dari web,
peneliti baru-baru ini lebih memerhatikan pertambangan berkembang profil pengguna
web yang bervariasi dengan waktu. Sebagai contoh, Nasraoui et al. [19-21] clustering
diusulkan aliran metodologi yang terinspirasi oleh kemampuan sistem kekebalan alami
untuk beradaptasi dengan lingkungan yang dinamis, sedangkan Desikan dan Srivastava
[22] mempelajari sifat berkembang dari web, di mana web diwakili sebagai grafik
diarahkan . Sebelumnya bekerja di belajar dengan konsep drift juga terkait dengan pola
pertambangan berkembang. Ini termasuk bekerja di ref. [23], [24] yang membahas
masalah pembelajaran berkembang konsep-konsep yang konsep yang secara bertahap
berubah dari waktu ke waktu, serta Koychev [25] yang disajikan metode untuk bertahap
lupa, yang ditugaskan berat untuk setiap contoh pelatihan menurut nya penampilan dari
waktu ke waktu. Baru-baru ini, Nasraoui et al. [26] mengusulkan kerangka kerja,
berdasarkan algoritma clustering HUNC, untuk menemukan profil menggunakan HUNC,
kemudian melacak bagaimana menemukan profil berevolusi selama periode waktu
berturut-turut, dan selanjutnya kategori ini evolusi berdasarkan kategori standar evolusi
beberapa seperti munculnya atau kelahiran, kematian, ketekunan, atau atavisme.
Perbedaan utama dari makalah ini, dibandingkan dengan karya Nasraoui et al. [26] adalah
bahwa tulisan ini langsung alamat biaya komputasi dengan menghilangkan sebagian
besar dari weblog dari analisis lebih lanjut selama tahap pra-pengolahan, sedangkan
Nasraoui et al. [26] tidak menangani masalah skalabilitas. Juga tidak seperti Nasraoui et
al. [26] yang terdiri dari decoupled pertambangan dan proses evolusi pelacakan, metode
yang disajikan dalam makalah ini erat mengintegrasikan pelacakan evolusi dengan
pertambangan cluster yang sebenarnya, dan dengan demikian memanfaatkan yang
pertama untuk meningkatkan skalabilitas yang bersangkutan. Lain perbedaan utama
adalah dalam prosedur validasi yang kita gunakan dalam makalah ini, yang merupakan
cluster berbasis, sehingga langsung menilai validitas dari cluster yang ditemukan di
seperti Jangka waktu cluster akrab sebagai kepadatan cluster, kompak, dan cluster
pemisahan antara. Untuk mengambil validasi ini lebih lanjut, kami juga dilacak validitas
kriteria ini dari waktu ke waktu untuk memvisualisasikan bagaimana kualitas cluster
berkembang sepanjang waktu. Sebagai akibatnya, sedangkan di ref. [26], kita hanya
ditandai jenis evolusi kualitatif, di sini kita melacak metrik tujuan yang terkait dengan
klaster atau profil dengan waktu, yang mengarah ke evaluasi temporal kuat kuantitatif
yang dapat membuat lebih mudah untuk dukungan lebih lanjut proses pengambilan
keputusan ke bawah sungai . Misalnya, metrik kuantitatif dapat membentuk fitur baru
yang dapat digunakan dalam pengambilan keputusan lebih lanjut.

3. METODOLOGI

Kebanyakan algoritma penggunaan web pertambangan yang ada telah gagal untuk
menangani gagasan perubahan dan besar data himpunan. Bahkan beberapa pendekatan
yang mencoba untuk menangkap dan menangani perubahan sifat web yang berhubungan
dengan pemahaman perubahan pola akses pengguna selama jangka waktu tertentu [26],
tapi gagal memanfaatkan perubahan ini secara langsung dalam rangka memelihara dan
mengembangkan profil yang berkembang. Di sisi lain, pendekatan yang diusulkan dalam
makalah ini menemukan pola penggunaan selama periode waktu yang berbeda, dan
selanjutnya menangkap perubahan yang dialami pola untuk memperbaruinya sesuai.

3.1. Sekilas Metodologi Usulan

Penggunaan web proses penambangan secara tradisional dilakukan dalam beberapa


langkah hanya dengan beberapa variasi. Hal ini dimulai dengan pra-pemrosesan file log,
menemukan pola penggunaan web menggunakan algoritma penggunaan pertambangan,
dan kemudian menafsirkan pola ditemukan. Langkah-langkah ini telah digunakan untuk
menemukan pola-pola penggunaan, mayoritas, dalam satu periode waktu tertentu, tetapi
mereka tak diragukan lagi dapat diterapkan kembali secara periodik, selama beberapa
periode, untuk menangkap perubahan pola navigasi. Namun, ada beberapa masalah
dengan menggunakan pendekatan ini, seperti yang dijelaskan di bawah ini.
Mengoleskan langkah-langkah baik secara berkala dapat dilakukan pada seluruh historis
data, atau pada file log yang baru saja. Pendekatan mantan mengurangi kemungkinan
menemukan tren baru karena berat badan mereka yang kecil dibandingkan dengan tren
yang lebih tua, sedangkan pendekatan yang kedua benar-benar lupa semua pola
sebelumnya yang mungkin tidak masuk akal atau efisien, karena beberapa pola-pola ini
mungkin masih signifikan di periode yang baru , dan harus ditemukan kembali lagi.
Mencoba untuk selalu menemukan perilaku baru dari semua akumulasi log file hingga
periode saat ini akan membutuhkan sumber daya komputasi yang signifikan, yang
menentang persyaratan skalabilitas.
Semua pendekatan di atas tidak menangkap perubahan perilaku penggunaan secara rinci,
yaitu kita tidak tahu mana URL telah berubah atau menjadi lebih menarik dari satu
periode yang lain.

Kerangka yang diusulkan, digambarkan pada Gambar. 1, mengatasi masalah-masalah di


atas dan dapat diringkas sebagai berikut, dengan asumsi bahwa kita mulai dengan satu set
awal (sebelumnya atau biji) profil ditambang dari periode awal:
(1) preproses data web log baru untuk mengekstrak sesi pengguna saat ini,
(2) Update profil sebelumnya yang menggunakan sesi pengguna diekstraksi,
(3) permohonan kembali clustering untuk sesi hanya pengguna yang berbeda (yaitu yang
tidak digunakan dalam langkah 2 untuk memperbarui profil sebelumnya),
(4) Post-proses yang berbeda (baru) profil ditambang pada langkah 3,
(5) Gabungkan profil diperbaharui dengan profil yang berbeda untuk membuat profil
benih baru untuk periode mendatang,
(6) Menginterpretasikan dan mengevaluasi profil ditemukan,
(7) Lanjutkan ke langkah 1 sebagai data dari periode yang baru menjadi siap.

Usulan proses penemuan pola flowchart.


3.2. Pra-pengolahan Log

Langkah pertama dalam pra-pengolahan pembersihan data di mana semua unsur-unsur


yang tidak relevan seperti gambar, permintaan dari agen merangkak, dan permintaan
tidak berhasil dihapus. Langkah berikutnya dalam pra-pengolahan sessionization, di
mana permintaan halaman berurutan dengan alamat IP yang sama berasal, sesi, atau
cookie ID dikelompokkan ke dalam unit yang disebut sesi. Setiap sesi mewakili semua
halaman yang dikunjungi oleh pengguna tertentu dalam jangka waktu yang telah
ditetapkan. Sesi pengguna dikodekan sebagai sj Nu-dimensi vektor biner dengan properti
sebagai berikut:

dimana j adalah nomor unik dalam 1,, Nu dan Nu adalah jumlah total URL yang valid.

3.3. Memperbarui Profil

Setelah pra-pengolahan, sesi dikategorikan menjadi pencocokan sesi dan sesi yang
berbeda. Sesi pencocokan baru, yang cocok dengan profil lama, akan digunakan untuk
memperbarui profil, profil tua adalah akumulasi dari profil berkembang ditemukan dan
diperbaharui dengan data tiba, sampai dengan periode sebelumnya. Sesi yang berbeda
adalah sisa sesi diekstraksi selama pra-proses, dan yang tidak ditemukan cukup mirip ke
profil lama. Hanya sesi-sesi yang berbeda, yang tidak sesuai dengan profil apapun, akan
menjalani langkah berikutnya menemukan profil baru / tren.

Profil Pi merupakan representasi vektor dari cluster Xi, yang merupakan kumpulan sesi
pengguna yang lebih mirip satu sama lain daripada sesi di cluster lain. Profil
direpresentasikan sebagai Pi = (Pi1,, PiNu) t mana PIJ adalah berat relevansi di cluster i,
dan diperkirakan oleh probabilitas bersyarat dari mengakses selama sesi ditugaskan untuk
cluster Xi, yaitu

Xij merupakan himpunan sesi di cluster Xi, yang mengakses URL,, dan | Xi | adalah
jumlah sesi di cluster Xi. | Xij | akan dinyatakan sebagai Nij dalam pembahasan berikut.

Profil Pi memiliki kardinalitas, Ni, yang merupakan jumlah sesi yang paling dekat
dengan prototipe cluster Xi, yaitu Ni = | Xi |. Selain itu, profil Pi memiliki ukuran skala
yang menentukan sejauh mana sesi di cluster Xi yang tersebar di cluster yang
representatif. Ukuran skala parameter HUNC cluster yang diturunkan untuk
mengoptimalkan kepadatan kriteria sebagai berikut HUNC 3 mana Wij adalah bobot
typicality kuat yang mengukur seberapa khas sebuah sesi x di cluster Xi, dan berfungsi
untuk membedakan outlier. Hal ini diberikan adalah jarak antara x sesi dan prototipe
cluster Xi, seperti yang diberikan oleh Persamaan. (6). Ukuran skala dapat dianggap
sebagai jari-jari dari cluster atau profil, dan mengecil dengan kesamaan antara sesi
masukan dan meningkatkan prototipe cluster. Selain itu, berdasarkan berat Wij kuat,
adalah mungkin untuk mendeteksi outlier yang akan memiliki berat yang lebih kecil.

Cara lain untuk mencocokkan sesi baru ke profil lama adalah dengan menghitung berat
kuat sesi relatif terhadap profil, didefinisikan pada Persamaan. (4), dan
membandingkannya dengan nilai ambang batas; pencocokan ini akan disebut sebagai
kesamaan berat badan yang kuat. Keuntungan dari menggunakan bobot yang kuat adalah
bahwa bobot dinormalisasi oleh skala tiap cluster, dengan itu, mereka yang kurang peka
terhadap ambang pintu, dan mereka juga tergantung pada dispersi profil atau
kekompakan. Dengan demikian, profil dengan skala yang lebih kecil akan lebih ketat
dalam pencocokan, dan sebaliknya untuk profil skala besar.

Salah satu isu penting ketika mengkaji kesamaan antara profil dan sesi hanya
mempertimbangkan URL umum yang signifikan, yaitu URL yang berat melebihi nilai
ambang, ketika menghitung kosinus kesamaan. Thresholding URL adalah sebuah
tindakan pencegahan tambahan untuk menyaring pengaruh pencilan potensial yang
mungkin mencemari profil. Namun, jika ambang batas terlalu ketat, maka hal ini dapat
menyebabkan membuang update penting ke profil, sementara masih dalam tahap bayi
mereka (sehingga bobot URL mereka masih rendah). Oleh karena itu, memilih nilai
ambang optimal adalah penting, dan merupakan parameter yang penting untuk belajar.
Selain parameter di atas, kami mencatat waktu mulai dan akhir untuk setiap profil. Yang
pertama adalah cap waktu sesi pertama yang memunculkan profil, sedangkan yang kedua
adalah cap waktu sesi terakhir yang digunakan untuk memperbarui profil. Akhirnya,
setelah mendefinisikan semua kuantitas yang dibutuhkan, kita dapat merangkum profil
update dalam Algoritma 2.

Algoritma ini dimulai dengan mencari profil yang cocok untuk setiap sesi terdekat, dan
kemudian menggunakan sesi yang cocok untuk memperbarui profil itu. Jika sidang tidak
cocok dengan profil apapun, yaitu kesamaan dengan semua profil tersebut tidak lebih dari
ambang batas, maka diklasifikasikan sebagai sesi yang berbeda. Dalam algoritma ini,
keanggotaan garing digunakan, yaitu hanya profil terdekat diperbarui, karena
bertentangan dengan memperbarui semua profil dekat dengan sesi (yang akan menjadi
anggota Fuzzy). Dapat dikatakan, secara intuitif, bahwa keanggotaan renyah atau keras
akan menghasilkan presisi tinggi pada biaya cakupan rendah, yang, dari perspektif bisnis,
berarti bahwa setiap pengguna dipetakan ke tepat satu profil rinci, bukannya banyak.

Memperbarui profil pencocokan yang paling dekat adalah dilakukan oleh incrementing
kardinalitas dengan satu, meningkatkan berat URL umum, menambahkan URL baru
(yang sesi, namun tidak di profil), memperbarui berat untuk URL yang tersisa dan meng-
update profil awal dan berakhir tanggal. Akhirnya, skala profil diperbarui dengan
menambahkan efek jarak sesi baru (). Berat setiap sesi baru dianggap sebagai satu (tidak
seperti definisi varians dalam Persamaan. (3)), karena kita sudah membatasi hanya sesi
yang sangat mirip dengan memperbarui pencocokan (dan selanjutnya, profil) terdekat.
----------------------------------------