Pendeteksi Dokumen Hampir Serupa Berbasis Sidik Jari Dengan Aplikasi Untuk Pendeteksian Spam SNS

Pendeteksi Dokumen Hampir Serupa Berbasis Sidik Jari dengan Aplikasi
untuk Pendeteksian Spam SNS

Jejaring social telah digunakan secara luas olej jutaan orang di seluruh dunia. Itu telah menjadi
cara yang paling popular yang digunakan orang yang ingin terhubung dan berinteraksi secara
online dengan teman mereka. Sekarang, telah banyak situs jejaring sosial, sebagai contoh,
Facebook, My Space dan Twitter, dengan jumlah pengguna aktif yang besar. Untuk itu, mereka
juga merupakan tempat yang baik untuk para spammer atau cheater yang ingin mencuri
informasi pribadi dari pengguna atau mengiklankan produk mereka. Akhir-akhir ini, banyak
rancangan metode yang diterapkan untuk mendeteksi komentar spam pada jejaring sosial
dengan Teknik yang berbeda. Pada paper ini, kami mengusulkan metode dengan basis
keserupaan yang mengkombinasikan Teknik pensidik-jarian dengan data tersturktur trie-tree
dan pendekatan meet-in-the-middle untuk mendapatkan akurasi yang tertinggi dalam
pendeteksian komentar spam. Menggunakan pendekatan rancangan kami, kami dapat
mendeteksi sekitar 98% komentar spam dalam dataset kami.
1. Perkenalan dokumen yang hamper serupa sangat identik sekati

dengan yang asli namun berbeda pada beberapa porsi
Dalam beberapa tahun belakangan, jejaring sosial kecil dari dokumen seperti periklanan, tanda waktu
telah diketahui sebagai sebuah fenomena di Internet. ataupun perhitungan.
Ia telah menjadi cara yang paling utama untuk orang Belakangan ini, pendeteksian dokumen serupa
agar terhubung dengan teman mereka secara online. dan hampir serupa sangat penting di berbagai bidang
Situs jejaring sosial yang paling popular seperti sains komputer, khususnya data mining, Information
Facebook, Twitter dan My Space telah secara Retrieval, dam web mining. Keuntungannya adalah
konsisten berada pada 20 teratas sebagai situs yang menghemat penyimpanan untuk data yang dibutuhkan
paling sering dilihat di Internet. Kebanyakan orang bukan untuk yang duplikat. Persentase yang cukup
telah menghabiskan banyak sekali waktu mereka besra dari laman web ditemukan sebagai hampir
untuk menikmati kehidupan di dunia virtual di serupa oleb beberapa studi [2-4]. Studi tersebut
jejaring sosial daripada kehidupan nyata mereka. disarankan sekitar 1.7% sampai 7% dari laman web
Selain itu, informasi pribadi mereka tersimpan dan yang dikunjungi oleh crawler adalah laman yanng
dibagikan pada situs yang terkadang memiliki hampir serupa. Meskipun masalah yang disebabkan
keamanan yang lemah. Oleh karena itu, jejaring sosial oleh plagiat dan mirroring dapat dideteksi dengan
juga menjadi target yang potensial untuka para mudah dengan menerapkan beberapa teknik seperti
spammer dan cheater yang ingin mengiklankan pembelajaran mesin dan pengelompokan dokumen,
produk mereka atau yang lebih bahayanya lagi dokumen yang hampir serupa lebih sulit untuk
mencuri informasi pengguna. Banyak sekali trik diidentifikasi.
sederhana, contohnya, membagikan pembaruan palsu Pada paper ini, kami mengusulkan sebuah metode
yang mengandung tautan berbahaya, menggukanan struktur data trie-tree untuk
menyalahgunakan fungsi komentar untuk mengumpulkan set dari string 64-bit, masing-masing
memposting pesan yang tidak tiinginkan ke merupakan sidik jari dari dokumen web. Setelah itu,
pengguna, tipuan gambar dan ahli sosial dengan para kami menggunakan pendekatan meet-in-the-middle
spammer tertentu dapat memperoleh tujuan mereka untuk mendeteksi dokumen yang hampir serupa. Pada
dengan mudah. masalah pendeteksian spam sosial, kami yakin
Komentar spam terkadang memiliki konten yang metode kami yang dideskripsikan pada paper ini
serupa atau hamper serupa. Oleh karena itu, mereka mampu mengidenyifikasi komentar spam sebaik
dapat dideteksi oleh beberapa metode yang umum dokumen yang hampir serupa dengan tingkat akurasi
digunakan untuk mendeteksi dokumen yang serupa yang tinggi.
atau hampir serupa pada bidang web mining. Keseluruhan paper telah terstruktur sebagai
Duplikat dan laman web mirror telah banyak berikut: Bagian 2 mengulas pekerjaan terkait; Bagian
tersedia di World Wide Web [1]. Di samping itu, 3 mendeskripsikan tujuan metode yang kami
manfaatkan untuk mengidentifikasi dokumen serupa Pada paper lain, kami mengusulkan sebuah
dan hampir serupa; Bagian 4 mengungkap dataset metode untuk mendeteksi SMS spam pada penangkat
kami dan evaluasi. Akhirnya kami seluler dan telepon pintar. Pendekatan tersebut
mempersembahkan kesimpulan pada Bagian 5. berdasarkan imrovisasi dari algoritma berbasis grafik
dan pemanfaatan algoritma KNN salah satu
2. Pekerjaan Terkait algoritma klasifikasi yang paling sederhana dan
paling efektif untuk mengimprovisasi keakuratan dan
Banyak peneliti lebih dahulu menyadari kesulitan dan kinerja sistem pendeteksi pada perangkat seluler [9].
pentingnya pendeteksian laman web yang hampir Salah satu contohnya pada konteks pensidik-
serupa pada bidang web mining. Rancangan metode jarian, terkadang shingles seringkali dihilangkan [5].
pada pekerjaan sebelumnya adalah berdasarkan Pada studi ini, teknik shingles mempertimbangkan
kesamaan atau berdasarkan signature [5]. dokumen sebagai aliran dari token, yang membagi
Pada metode berdasarkan kesamaan, mereka segmen yang dimaksud menjadi tumpang tindih atau
biasanya membutuhkan semua dokumen untuk tidak tumpang tindih menjadi shingles. Sebagai
dibandingkan satu sama lain. Khususnya setiap gantinya, menggunakan set token secara penuh dari
dokumen dibandingkan semuanya pada dataset dan setiap dokumen untuk menentukan kesamaan diantara
kesamaannya dikalkulasikan [5] keduanya, mereka memilih subset yang kecil dari
Pad 1997, Broder et al. [6] menganalisa fraksi dari token yang lebih sering dimuat sebagai representastif
dari laman web yang hampir serupa dengan yang lain. dari dokumen tersebut. Dengan penyederhanaan
Pada studi ini, mereka mengimplementsaikan teknik seperti itu, keakuratan pendeteksian telah cukup
yang disebut dengan shingling. Ide dasar dari metode meningkat.
mereka adalah memilih selisih daari rangkaian set Contoh lainnya yang berbasis padad pensidik
pada setiap token dokumen. Set dari token tersebut jarian untuk mendeteksi dokumen yang hampir
digunakan untuk mempersentasikan setiap dokumen. serupa, telah diusulkan oleh Kumar dan
Pada eksperimen mereka, mereka membandingkan Govindarajulu [1]. Sidik jari dokumen, merupakan
representatif dari dua dokumen untuk string 64-bit, dibuat melalui algoritma pensidik jarian
membandingkan secara tumpang tindih untuk yang disebut sim-hash [10]. Pada komputer sains,
menghasilkan perkiraan keserupaan. Keserupaan yang algoritma pensidik jarian merupakan prosedur yang
lebih tinggi akan ditetapkan pada dua dokumen yang mempetakan item data besar yang asal-asalan (pada
memiliki ketertumpang tindihan yang tinggi pada paper ini, data item adalah dokumen web) ke banyak
token mereka. penyingkat string bit untuk dimungkinkan
Naraya et al. [7] telah mempresentasikan sebuah mengidentifikasi data asli. Algoritma sim-hash dapat
metode untuk pendeteksian laman web yang hampir membagi dokumen yang serupa ke sidik jari yang
serupa pada crawling web. Setelah memperoleh serupa kan setiap dokumen dapat direpresentasikan
laman web baru dari crawler web, sistem oleh 64-bit saja. Lalu, pengelompokan K-Mean, fitur
mengekstrak konten dari laman tersebut ke banyak kalimat, dan pembandingan sidik jari dapat diterapkan
token dan mengkalkulasikan nilai kesamaannya untuk mendeteksi dokumen laman web yang hampir
dengan beragam dokumen yang tersedia. Sebuah serupa. Pugh, seseorang yang bekerja di Google,
dokumen akan dianggap sebagai laman web yang menduga dua dokumen dapat dideteksi sebagai
hampir serupa jika nilai kesamaannya lebih besar dari dokumen yang serpa atau hampir serupa jika sidik jari
batas yang telah ditetapkan. mereka cocok [11].
Dengan menerapkan metode berdasarkan Berdasarkan konteks sidik jari, kami pengusulkan
keserupaan, kinerja runtime adalah 𝑂(𝑑2) yang mana sebuah metode pendeteksian komentar spam sosial
d merupakan jumlah dokumen. Karena alasan itulah, baru yang memanfaatkan data struktur trie-tree untuk
kinerja pada metode ini terkadang lebih lambat sidik jari dan pendekatan meet-in-the-middle dapam
daripada yang lain jika diimplementasikan dataset mendeteksi kata, yang mana dapat diterapkan dalam
dengan jumlah yang banyak. Bebrapa teknik proses pendeteksian komentar spam. Hasil
diusulkan untuk mengimprovisasi kinerja runtime. eksperimentas ditampilkan baganmana metode kami
Penulis pada [8] menggunakan ukuran dokumen mendapatkan keakuratan deteksi yang tinggi dan
untuk memutuskan dokumen mana yang harus saling kinerja yang efisien.
dibandingkan.
3. Tujuan Metode
melewatinya untuk proses pembuatan sidik jari untuk
3.1. Alur Kerja. Begian ini mendeskripsikan pemprosesan selanjutnya.
gmbaran dari metode rancangan. Sebuah dokumen
baru telah diproses melalui banyak langkah seperti 3.2.1. Penguraian. Sebuah laman web
penguraian, mentokenan, menghentikan pengkpusan menggabungkan konten tekstual yang termasuk teks,
kata, dan pembendungan pada fase pra-pemprosesan. tag HTML, dan kode JavaScript. Proses penguraian
Setelah itu, pada set token terbanyak akan dipilih dan merupakan prosedur penganalisaan dokumen ke
digunakan untuk membuat sidik jari 64-bit dari representasi linear berdasarkan kosa kata yang
algoritma sim-hash. Selanjutnya, melalui sidik jari diberikan [12]. Itu membantu merapikan tag HTML
primer dokumen, kami melanjutkan membalikkan dan kode JavaScript untuk memuat konten lebih besih
nilai dari satu atau dua posisi di antara 64-bit secara dan lebih berguna untuk pengekstarkan infromasi
berurutan untuk membuat banyak string 64-bit pada konted dari dokumen.
sebagai sidik jari yang serupa. Akhirnya, sidik jari
primer dan koresponding sidik jari hampir serupanya 3.2.2. Pentokenan. Proses ini memecah aliran teks ke
akan disimpan pada trie-tree. Pada umumnya, alur banyak kata, frasa, atau elemen lainnya yang disebut
kerja kami diilustrasikan paka Gambar 1. token. Setelah merapikan konten HTML melalui
Untuk fase pendeteksian, kami membuat sisdik proses penguraian, konten terekstrak akan ditokenkan
jari dari dokumen baru, termasuk primernya dan yang ke banyak kata. Jumlah dari kata tersebut dapat
hampir serupa. Lalu, kami memeriksa apakah sidik berkurang tanpa kehilangan maksud dari dokumen
jari dari dokumen baru tersebut tersedia pada trie- melalui penyaringan dan penghapusan banyak kata
tree. Jika tersedia, dapat disimpulkan bahwa hubung yang populer pada proses penghetian
setidaknya satu dokumen dari koleksi tersebut hampir penghapusan kata.
serupa atau serupa dengan ini.
3.2.3. Penghapusan kata henti. Pada komputasi, kata
henti merupakan kata yang disaring sebelumnya, atau
setelahnya, pemprosesan data bahasa natural (teks)
[13]. Mereka terkadang merupakan kata yang umum
seperti “the”, “a”, “an” dan ”of” seperti pada Tabel 1
sering kali muncul pada konten dokumen.
Penghapusan kata henti merupakan proses
penyaringan dan penghapusan kata untuk
mengimprovisasi kinerja algoritma.
Gambar 1: Pendeteksian dokuman hampir serupa pada fase pelatihan
3.2. Pra-Pemprosesan. Pra-pemprosesan perlu

dilakukan untuk penurunan sidik jari dan representsi
trie-tree. Ia terdiri atas penguraian HTML,
mentokenan, penghapusan kata henti, dan
pembendungan [1]. Pada panguraian, dokumen web
dianalisa ke representasi linear menurut kosa kata
yang diberikan. Setelah penguraian HTML, konten
web dipecah ke banyak kata melalui proses
pentokenan dan mereka disaring melalui pebghapusan
kata hubung seperti “is” “a” dan “an” pada prosedur
menghentian penghapusan kata. Akhirnya, proses Tabel 1: Contoh Kata Henti
yang disebut pembendungan memangkas kata yang
disaring tersebut ke dalam basis mereka sebelum 3.2.4. Pembendungan. Pada Informaton Retrieval,
pembendungan merupakan proses pengurangan kata
yang berubah ke akar, dasar atau bentuk asli mereka.
Program pembendungan umumnya mengacu pada
algoritma pembendungan atau stemmers. Ingason et
al. [14] berusaha mengubah kata ke akar linguistik
yang tepat untuk memfasilitasi pengurangan kata
yang memiliki kesamaan akar sebagai satu kata. Ini
termasuk menghapus kata sufiks derivasi dan infleksi
[4]. Contohnya, “went”, “goes” dan “gone” semuanya
diringkas ke “go” asal mereka.
3.3. Pengekstrakan Sidik Jari
3.3.1. Sidik Jari Primer Dokumen. Sebuah sdiik jari

dari sokumen merupakan nilai hash fitur-fiturnya. Ia
merupakan string 64-bit yang dibuat melalui
algoritma sim-hash [15] sebuah fungsi hash
spesial.
Fungsi hash merupakan sebuah algoritma atau
program yang mempetakan data dari variabel untuk
menetapkan panjangnya. Nilai yang dikembalikan
oleh fungsi hash disebut dengan nilai hash, kode
hash, hash sums, checksums, atau hash yang
disederhanakan. Kebanyakan fungsi hash terkadang Alg
oritma 1: Pseudocode dari algoritma sim-hash
dibuat nilai hash yang sangat berbeda bahkan untuk
masukan yang serupa.
Untuk tujuan pendeteksian kesamaan, sim-hash
telah dikemukakan. Ini merupakan fungsi hash yang
spesian yang dikembangkan oleh Charikan [15].
Fungsi hash ini dimanfaatkan untuk masukan hash
yang serupa untuk nilai hash yang serupa.
Awalnya, dokumen di pra-pemprosesan unu
mengekstark set dari kata kunci (token) dari
kontennya. Kami menginisialisasi sebuah 𝑓-
dimensional vektor V dengan setiap dimensi
sebagai kosong. Setiap kata kunci ditandai dengan Gambar 2: Prosedur kerja algoritma sim-hash
frekuensinya (jumlah berapa kali muncul pada
dokumen). Di sini, setiap kata kunci dari dokumen, 3.3.2. Enkstraksi Sidik Jari Hampir Serupa. Sebuah
akan di-hash ke nilai hash 𝑓-bit. Peningkatan atau dokumen direpresentasikan oleh sebuah sidik jari
penurunan pada komponen 𝑓 dari 𝑓-bit yang unik dan sidik jari dokumen hampir serupa
tergantung dari beban kat atersebut. Pada langkah terkadang berbeda satu sama lain pada beberapa bit.
selanjutnya, komponen tanda menentukan bit Untuk memperkaya jumlah sidik jari, kami
korespondensi dari sidik jari akhir dari dokumen. mengekstrak basis sidik jari yang hampir serupa pada
Prosedur kerja tersebut menerapkan sim-hash primer dari dokumen. Sidik jari tersebut memiliki
untuk membuat dokumen ke sidik jari 64-bit beberapa bit yang berbeda dengan yang primer.
diilustrasikan pada Gambar 2 dan pseudocode dari Posisi k pada 64-bit yang nilainya dibalikkan
algoritma sim-hash telah diberikan pada untuk mengekstak yang hampir serupa akan
Algoritma 1 [1]. dikomputasi melalui perhitungan kombinasi dari k.
Kombinasi tapat diambil dari set ukurang 64
menggunakan formula berikut:
Yang mana k adalah jumlah perbedaan bit antara
kedua sidik jari.
Pada paper ini, jumlah perbedaan bit paling

Box 2: Contoh sidik jari hampir serupa
banyak 2. Pada kata lain, nilai k digunakan pada
algoritma ini adalah 1 dan 2. Akhirnya sebuah 3.4. Pendeteksian Hampir Serupa. Struktur data trie-
dokumen memiliki sidik jari tree dan pendekatan meet-in-the-middle
termasuk yang primer. memanfaatkan pendeteksian hampir serupa. Selama
Kapanpunposisi bit terkomputati, nilai bit pada posisi trie-tree digunakan untuk merepresentasikan semua
tersebut akan dibalik pada seteiap subset. Algoritma 2 sidik jari yang dibuat dari dokumen pasa fase
mendeskripsikan pseudocode dari algoritma yang pelatihan, strategi meet-in-the middle memilikan
diterapkan untuk komputasi set dari pososi subset peran yang penting dalam prosedur pendeteksian.
string, serta Box 1 dan 2 mengilustrasikan penjalanan Trie-tree menyusun struktur data yang digunakan
algoritma ini. untuk menyimpan set dinamis atau array terasosiasi,
yang menjadi kunci beberapa string. Selanjutnya,
mengizinkan banyak string dengan karakter prefiks
serupa untung menggunakan data prefix yang smaa
dan cukup mengekor pada data terpisah.
Pertama-tama, trie-tree dibuat. Setelah
Box 1: Set dari subset yang mengandung posisi bit pada string 64-bit
pengekstrakan sidik jari setiap dokumen, ia akan
dimasukkan ke pohon sekuensial jika tidak tersedia di
sana. Pohon secara lengkap diilustrasikan pada
Gambar 3.
Setelah membangun trie-tree
pada fase pelatihan, ia akan digunakan pada fase
pendeteksian hampir serupa. Ketika crawled
dokumen baru ditambahkan, kami mengerapkan
pendekatan meet-in-the-middle untuk mendeteksi
dokumen yang hampir serupa. Ini maksudnya
crawled laman web terbaru juga dianalisa dan sidik
jari dibuat melaluinya. Karenanya, sidik jari tersebut
akan dibandingkan secara berurutan dengan semua
sidik jari yang tersedia pada trie-tree. Jika terjadi
penumpukan sidik jari dari dokumen baru dengan
sidik jari manapun pada pohon, kita dapat
menyimpulkan bahwa dokumne tersubut hampir
serupa atau serupa. Keuntungan pendekatan meet-in-
the-middle adalah ketika k adalah 1; kita dapat
Algoritma 2: Pseudocode dari algoritma daftar posisi
mendeteksi dua dokumen yang memiliki dua bit
perbedaan pada sidik jarinya. Demikian pula, jika k
adalah 2, 4-bit perbedaan antara sidik jari dapat
dikenali. Pada Gambar 4 dan 5, contoh pendekatan
meet-in-the-middle disediakan. Bahkan, dokumen
hampir serupa dapat pula ditambahkan pada pohon
yang dapat memperkaya jumlah sidik jari yang
tersedia pada pohon. 4.2. Evaluasi. Eksperimen berikut didesain dan
dibawa untuk memeriksa kinerja dan akusari dari
metode usulan kami. Mekipun eksperimen kami telah
selesai dengan dataset laman web, itu dapt pula
bekerja dengan baik dan memperoleh hasil yang
bagus pada pendeteksian komentr spam. Untuk
mendeteksian spam sosial, kami akan menerapkan
metode ini untuk dataset komentar spam. Dengan kata
lain, kami akan menggunakan dataset komentar spam
daripada menggunakan kumpulan laman web untuk
membangun trie-tree dengan proses yang sama.
Pertama-tama, kami membangun trie-tree dari
Gambar 3: Sidik jari trie-tree
dataset. Setiap dokumen secara berurutan dilakukan
pra-pemprosesan oleh penguraian HTML,
pentokenan, penghapusan kata henti, dan
pembendungan sebelum membuat banyak sidik jari
dari set token yang paling sering. Lalu, trie-tree
dibuat melalui sidik jari tersebut dan struktunya pada
Gambar 3.
Dari pelatihan dataset dengan lebih dari 1000
laman web, ukuran trie-tree terdapat sekitar 22 juta
Gambar 4: Contoh meet-in-the-middle (1)
titik temasuk titik akar dimaan jumlah perbedaan bit
antara dua sidik jari (k) adalah 2, sedangkan trie-tree
sekitar 960000 titik dengan k = 1. Selanjurnya,
kinerjanya setgantung dari jumlah token yang
digunakan sebagai kata kunci reperesetatif dari setiap
dokumen (N). Grafik pada Gambar 6
mengilustrasikan ukuran berbasis pohon pada nilai k 1
dan 2 selama ukurannya tidak berubah dengan N.
Gambar 5: Contoh meet-in-the-middle saat k = 1 (2) Namun, pada Gambar 7 dan 8, grafik tersebut
mengungkapkan masing-masing kinerja waktu
4. Dataset Dan Evaluasi komputasi pada fase pelatihan dan percobaan.
Dalam hal evaluasi kinerja dan akurasi metode
4.1. Data Set. Sebagai pemeriksa hasil dari yang diusulkan, eksperimen selesai dengan dataset
pendekatan yang kami usulkan, kami menyesuaikan pelatihan yang termasuk 176 dokuman serupa dan
bagian dari dataset publik yang tersedia pada [16]. hampir serupa. Pada eksperimen ini, kami memilih
Keseluruhan dataset ini mengandung subset dari data masukan dan selalu digunakan pada metode yang
laman-WWW yang dikumpulkan dari departemen diusulkan pada Tabel 2.
komputer sains dari beragam universitas pada Januari
1997 oleh projek World Wide Knowledge Base (Web
→ Kb) dari kelompok pembelajaran teks CMU [17].
Drai dataset ini, kamu secara acak mengambil lebih
dari 1000 dokumen web dang menggunakannya
sebagai pelatihan dataset. Berikut, subset terdiri atas Tabel 2: Masukan ekspermental
176 file dan kontennya dipilih dan diubah untuk
membuat pelatihan dataset termasuk dokumen yang
serupa dan hampir serupa.
Tabel 3: Hasil eksperimental
Bahkan, kinerja waktu dari metoda yang kami

usulkan pastinya lebih baik daripada pekerjaan
sebelumnya. Karena mereka membandingkan dengan
Gambar 6: Ukuran trie-tree semua dokumen, meskilun hasilnya bagus, kinerja
waktu sekitar O(d). dimana d aalah jumlah dokumen.
Namun pada kasus kami, karena kami menggunakan
data struktur trie tree untuk mempresentasikan sidik
jari, pencarian performa hanya O(m), yang mana m
adalah panjang sidik jari, yaitu 64, secara praktis
tetap.
Pendeteksian hampir serupa adalah masalah yang
vital dalam data mining. Banyak metode yang
tersedia memiliki tawaran untuk menyelesaikan
masalah ini dan memperoleh beragam hasil yang
berbeda [18]. Umumnya, kami membandingkan
beberapa evaluasi metrik dari hasil kami dengan
pekerjaan sebelumnya [1] seperti, presisi, recall dan
Gambar 7: Kinerja waktu fase pelatihan
F-measure. Nilai tersebut dikalkulasikan dengan
formula berikut:
Komputasi nilai pada paper kami dipresentasikan

pada Gambar 9 dan 10 dengan bar biru, sementara
Gambar 8: Kinerja waktu percobaan pekerjaan sebelumnya dengan bar merah.
Pada eksperimen kami memilih k sebagai 2, yang

bermaksud bahwa jumlah perbedaan bit setidaknya 2.
Khususnya, set sidik jari pada kasus ini bukan hnya 2-
bit perbedaan sidik jari tetapi juga 1-bit perbedaan
ketika dibandingkan dengan sidik jari primer. Kita
dapat mendeteksi hampir semua dokumen yang
serupa dan memperoleh akurasi pendeteksian hampir
serupa yang tinggi, diringkaskan pada Tabel 3.
Referensi
[1] J. P. Kumar and P. Govindarajulu, “Near-
duplicate web page detection: an efficient
approach using clustering, sentence feature and
fingerprinting, ”International Journal of
Computational Intelligence Systems, vol. 6, no.
1, 2013.
[2] A. Z. Broder, “On the resemblance and
containment of documents,” in Proceedings of
the IEEE International Conference on
Compression and Complexity of Sequences, pp.
21–29, June 1997.
[3] D. Fetterly, M. Manasse, and M. Najork, “On the
Gambar 9: Perbandingan hasil pendeteksian duplikat evolution of clusters of near-duplicate web
pages,” Journal of Web Engineering, vol. 2, no.
4, pp. 228–246, 2003.
[4] M. Henzinger, “Finding near-duplicate web pages:
a large-scale evaluation of algorithms,” in
Proceedings of the 29th Annual International
ACM SIGIR Conference on Research and
Development in Information Retrieval, pp. 284–
291, August 2006.
[5] A. Kołcz, A. Chowdhury, and J. Alspector,
“Improved robustness of signature-based near-
replica detection via lexicon randomization,” in
Proceedings of the 10th ACM SIGKDD
International Conference on Knowledge
Discovery and Data Mining,pp. 605–610, August
2004.
Gambar 10: Perbandingan hasil pendeteksian hampir serupa [6] A. Z. Broder, S. C. Glassman, M. S. Manasse, and
G. Zweig, “Syntactic clustering of the Web,” in
5. Kesimpulan Proceedings of the 6th 8 International Journal of
Spam sosialmerupakan salah satu isu yang penting Distributed Sensor Networks International World
dan serius pada bidang jaringan sosial. Itu jelas bahwa Wide Web Conference, pp. 393–404, April 1997.
resiko sosial dan keamanan meningkat tajam karena [7] V. A. Narayana, P. Premchand, and A.
isu ini. Baru-baru ini, telah banyak algoritma yang Govardhan, “Fixing the threshold for effective
mengusulkan untuk menyelesaikannya dengan detection of near duplicate web documents in
berbagai teknik yang berbeda. Pada paper ini, kami web crawling,” in Advanced Data Mining and
mengusulkan sebuah metoe yang efektif untuk Applications, vol. 6440 of Lecture Notes in
mendeteksi komentar spam pada situs jejaring sosial Computer Science,pp. 169–180, 2010.
terbaru. Dengan mengerapkan data struktur trie-tree [8] J. W. Cooper, A. R. Coden, and E. W. Brown, “A
dan pendekatan meet-in-the-middle, metode kami novel method for detecting similar documents,”
dapat dengan mudah mendeteksi komentar yang in Proceedings of the IEEE 35th Annual Hawaii
memiliki konten hampir serupa dengan koleksi spam. International Conferenceon System Sciences
Hasil eksperimental telah terbukti ke-efektivan (HICSS ’02), 2002.
metode kami baik akurasi dan kinerja waktu. [9] P. T. Ho, H. S. Kang, and S. R. Kim, “Graph-
based KNN algorithm for spam SMS detection,”
Journal of Universal Computer Science, vol. 19,
no. 16, pp. 2404–2419, 2013.
[10] C. Sadowski and G. Levin, “Simhash: hash-
based similarity detection,” Tech. Rep., Google,
2007.
[11] W. Pugh, “US Patent 6,658,423,” 2003,
http://www.cs.umd.edu/∼pugh/google/Duplicate
s.pdf.
[12] D. Grune and C. J. H. Jacobs, Parsing
Techniques A Practical Guide, Springer, 1998.
[13] A. Rajaraman and J. D. Ullman, “Data mining,”
in Mining of Massive Datasets, Cambridge
University Press, 2011.
[14] A. K. Ingason, S. Helgadóttir, H. Loftsson, and
E. Rögnvaldsson, “Amixed method
lemmatization algorithm using a hierarchy of
linguistic identities (HOLI),” in Advances in
Natural Language Processing, vol. 5221 of
Lecture Notes in Computer Science, pp. 205–
216, 2008.
[15] M. S. Charikar, “Similarity estimation techniques
from rounding algorithms,” in Proceedings of the
34th Annual ACM Symposium on Theory of
Computing, pp. 380–388, May 2002.
[16]http://www.cs.cmu.edu/afs/cs.cmu.edu/project/the
o-51/www/co-training/data/course-cotrain-
data.tar.gz.
[17]http://www.cs.cmu.edu/afs/cs.cmu.edu/project/the
o-51/www/co-training/data/.
[18] B. S. Alsulami, M. F. Abulkhair, and F. E. Eassa,
“Near duplicate document detection survey,”
International Journal of Computer Science and
Communications Networks, vol. 2, no. 2,
pp.147–151, 2012.

Pendeteksi Dokumen Hampir Serupa Berbasis Sidik Jari Dengan Aplikasi Untuk Pendeteksian Spam SNS

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pendeteksi Dokumen Hampir Serupa Berbasis Sidik Jari Dengan Aplikasi Untuk Pendeteksian Spam SNS

Diunggah oleh

Hak Cipta:

Format Tersedia

Pendeteksi Dokumen Hampir Serupa Berbasis Sidik Jari dengan Aplikasi

untuk Pendeteksian Spam SNS

1. Perkenalan dokumen yang hamper serupa sangat identik sekati

Gambar 1: Pendeteksian dokuman hampir serupa pada fase pelatihan

3.2. Pra-Pemprosesan. Pra-pemprosesan perlu

3.3. Pengekstrakan Sidik Jari

3.3.1. Sidik Jari Primer Dokumen. Sebuah sdiik jari

Pada paper ini, jumlah perbedaan bit paling

Bahkan, kinerja waktu dari metoda yang kami

Komputasi nilai pada paper kami dipresentasikan

Pada eksperimen kami memilih k sebagai 2, yang

Anda mungkin juga menyukai