Pendeteksi Dokumen Hampir Serupa Berbasis Sidik Jari dengan Aplikasi
untuk Pendeteksian Spam SNS
Jejaring social telah digunakan secara luas olej jutaan orang di seluruh dunia. Itu telah menjadi cara yang paling popular yang digunakan orang yang ingin terhubung dan berinteraksi secara online dengan teman mereka. Sekarang, telah banyak situs jejaring sosial, sebagai contoh, Facebook, My Space dan Twitter, dengan jumlah pengguna aktif yang besar. Untuk itu, mereka juga merupakan tempat yang baik untuk para spammer atau cheater yang ingin mencuri informasi pribadi dari pengguna atau mengiklankan produk mereka. Akhir-akhir ini, banyak rancangan metode yang diterapkan untuk mendeteksi komentar spam pada jejaring sosial dengan Teknik yang berbeda. Pada paper ini, kami mengusulkan metode dengan basis keserupaan yang mengkombinasikan Teknik pensidik-jarian dengan data tersturktur trie-tree dan pendekatan meet-in-the-middle untuk mendapatkan akurasi yang tertinggi dalam pendeteksian komentar spam. Menggunakan pendekatan rancangan kami, kami dapat mendeteksi sekitar 98% komentar spam dalam dataset kami.
1. Perkenalan dokumen yang hamper serupa sangat identik sekati
dengan yang asli namun berbeda pada beberapa porsi Dalam beberapa tahun belakangan, jejaring sosial kecil dari dokumen seperti periklanan, tanda waktu telah diketahui sebagai sebuah fenomena di Internet. ataupun perhitungan. Ia telah menjadi cara yang paling utama untuk orang Belakangan ini, pendeteksian dokumen serupa agar terhubung dengan teman mereka secara online. dan hampir serupa sangat penting di berbagai bidang Situs jejaring sosial yang paling popular seperti sains komputer, khususnya data mining, Information Facebook, Twitter dan My Space telah secara Retrieval, dam web mining. Keuntungannya adalah konsisten berada pada 20 teratas sebagai situs yang menghemat penyimpanan untuk data yang dibutuhkan paling sering dilihat di Internet. Kebanyakan orang bukan untuk yang duplikat. Persentase yang cukup telah menghabiskan banyak sekali waktu mereka besra dari laman web ditemukan sebagai hampir untuk menikmati kehidupan di dunia virtual di serupa oleb beberapa studi [2-4]. Studi tersebut jejaring sosial daripada kehidupan nyata mereka. disarankan sekitar 1.7% sampai 7% dari laman web Selain itu, informasi pribadi mereka tersimpan dan yang dikunjungi oleh crawler adalah laman yanng dibagikan pada situs yang terkadang memiliki hampir serupa. Meskipun masalah yang disebabkan keamanan yang lemah. Oleh karena itu, jejaring sosial oleh plagiat dan mirroring dapat dideteksi dengan juga menjadi target yang potensial untuka para mudah dengan menerapkan beberapa teknik seperti spammer dan cheater yang ingin mengiklankan pembelajaran mesin dan pengelompokan dokumen, produk mereka atau yang lebih bahayanya lagi dokumen yang hampir serupa lebih sulit untuk mencuri informasi pengguna. Banyak sekali trik diidentifikasi. sederhana, contohnya, membagikan pembaruan palsu Pada paper ini, kami mengusulkan sebuah metode yang mengandung tautan berbahaya, menggukanan struktur data trie-tree untuk menyalahgunakan fungsi komentar untuk mengumpulkan set dari string 64-bit, masing-masing memposting pesan yang tidak tiinginkan ke merupakan sidik jari dari dokumen web. Setelah itu, pengguna, tipuan gambar dan ahli sosial dengan para kami menggunakan pendekatan meet-in-the-middle spammer tertentu dapat memperoleh tujuan mereka untuk mendeteksi dokumen yang hampir serupa. Pada dengan mudah. masalah pendeteksian spam sosial, kami yakin Komentar spam terkadang memiliki konten yang metode kami yang dideskripsikan pada paper ini serupa atau hamper serupa. Oleh karena itu, mereka mampu mengidenyifikasi komentar spam sebaik dapat dideteksi oleh beberapa metode yang umum dokumen yang hampir serupa dengan tingkat akurasi digunakan untuk mendeteksi dokumen yang serupa yang tinggi. atau hampir serupa pada bidang web mining. Keseluruhan paper telah terstruktur sebagai Duplikat dan laman web mirror telah banyak berikut: Bagian 2 mengulas pekerjaan terkait; Bagian tersedia di World Wide Web [1]. Di samping itu, 3 mendeskripsikan tujuan metode yang kami manfaatkan untuk mengidentifikasi dokumen serupa Pada paper lain, kami mengusulkan sebuah dan hampir serupa; Bagian 4 mengungkap dataset metode untuk mendeteksi SMS spam pada penangkat kami dan evaluasi. Akhirnya kami seluler dan telepon pintar. Pendekatan tersebut mempersembahkan kesimpulan pada Bagian 5. berdasarkan imrovisasi dari algoritma berbasis grafik dan pemanfaatan algoritma KNN salah satu 2. Pekerjaan Terkait algoritma klasifikasi yang paling sederhana dan paling efektif untuk mengimprovisasi keakuratan dan Banyak peneliti lebih dahulu menyadari kesulitan dan kinerja sistem pendeteksi pada perangkat seluler [9]. pentingnya pendeteksian laman web yang hampir Salah satu contohnya pada konteks pensidik- serupa pada bidang web mining. Rancangan metode jarian, terkadang shingles seringkali dihilangkan [5]. pada pekerjaan sebelumnya adalah berdasarkan Pada studi ini, teknik shingles mempertimbangkan kesamaan atau berdasarkan signature [5]. dokumen sebagai aliran dari token, yang membagi Pada metode berdasarkan kesamaan, mereka segmen yang dimaksud menjadi tumpang tindih atau biasanya membutuhkan semua dokumen untuk tidak tumpang tindih menjadi shingles. Sebagai dibandingkan satu sama lain. Khususnya setiap gantinya, menggunakan set token secara penuh dari dokumen dibandingkan semuanya pada dataset dan setiap dokumen untuk menentukan kesamaan diantara kesamaannya dikalkulasikan [5] keduanya, mereka memilih subset yang kecil dari Pad 1997, Broder et al. [6] menganalisa fraksi dari token yang lebih sering dimuat sebagai representastif dari laman web yang hampir serupa dengan yang lain. dari dokumen tersebut. Dengan penyederhanaan Pada studi ini, mereka mengimplementsaikan teknik seperti itu, keakuratan pendeteksian telah cukup yang disebut dengan shingling. Ide dasar dari metode meningkat. mereka adalah memilih selisih daari rangkaian set Contoh lainnya yang berbasis padad pensidik pada setiap token dokumen. Set dari token tersebut jarian untuk mendeteksi dokumen yang hampir digunakan untuk mempersentasikan setiap dokumen. serupa, telah diusulkan oleh Kumar dan Pada eksperimen mereka, mereka membandingkan Govindarajulu [1]. Sidik jari dokumen, merupakan representatif dari dua dokumen untuk string 64-bit, dibuat melalui algoritma pensidik jarian membandingkan secara tumpang tindih untuk yang disebut sim-hash [10]. Pada komputer sains, menghasilkan perkiraan keserupaan. Keserupaan yang algoritma pensidik jarian merupakan prosedur yang lebih tinggi akan ditetapkan pada dua dokumen yang mempetakan item data besar yang asal-asalan (pada memiliki ketertumpang tindihan yang tinggi pada paper ini, data item adalah dokumen web) ke banyak token mereka. penyingkat string bit untuk dimungkinkan Naraya et al. [7] telah mempresentasikan sebuah mengidentifikasi data asli. Algoritma sim-hash dapat metode untuk pendeteksian laman web yang hampir membagi dokumen yang serupa ke sidik jari yang serupa pada crawling web. Setelah memperoleh serupa kan setiap dokumen dapat direpresentasikan laman web baru dari crawler web, sistem oleh 64-bit saja. Lalu, pengelompokan K-Mean, fitur mengekstrak konten dari laman tersebut ke banyak kalimat, dan pembandingan sidik jari dapat diterapkan token dan mengkalkulasikan nilai kesamaannya untuk mendeteksi dokumen laman web yang hampir dengan beragam dokumen yang tersedia. Sebuah serupa. Pugh, seseorang yang bekerja di Google, dokumen akan dianggap sebagai laman web yang menduga dua dokumen dapat dideteksi sebagai hampir serupa jika nilai kesamaannya lebih besar dari dokumen yang serpa atau hampir serupa jika sidik jari batas yang telah ditetapkan. mereka cocok [11]. Dengan menerapkan metode berdasarkan Berdasarkan konteks sidik jari, kami pengusulkan keserupaan, kinerja runtime adalah 𝑂(𝑑2) yang mana sebuah metode pendeteksian komentar spam sosial d merupakan jumlah dokumen. Karena alasan itulah, baru yang memanfaatkan data struktur trie-tree untuk kinerja pada metode ini terkadang lebih lambat sidik jari dan pendekatan meet-in-the-middle dapam daripada yang lain jika diimplementasikan dataset mendeteksi kata, yang mana dapat diterapkan dalam dengan jumlah yang banyak. Bebrapa teknik proses pendeteksian komentar spam. Hasil diusulkan untuk mengimprovisasi kinerja runtime. eksperimentas ditampilkan baganmana metode kami Penulis pada [8] menggunakan ukuran dokumen mendapatkan keakuratan deteksi yang tinggi dan untuk memutuskan dokumen mana yang harus saling kinerja yang efisien. dibandingkan. 3. Tujuan Metode melewatinya untuk proses pembuatan sidik jari untuk 3.1. Alur Kerja. Begian ini mendeskripsikan pemprosesan selanjutnya. gmbaran dari metode rancangan. Sebuah dokumen baru telah diproses melalui banyak langkah seperti 3.2.1. Penguraian. Sebuah laman web penguraian, mentokenan, menghentikan pengkpusan menggabungkan konten tekstual yang termasuk teks, kata, dan pembendungan pada fase pra-pemprosesan. tag HTML, dan kode JavaScript. Proses penguraian Setelah itu, pada set token terbanyak akan dipilih dan merupakan prosedur penganalisaan dokumen ke digunakan untuk membuat sidik jari 64-bit dari representasi linear berdasarkan kosa kata yang algoritma sim-hash. Selanjutnya, melalui sidik jari diberikan [12]. Itu membantu merapikan tag HTML primer dokumen, kami melanjutkan membalikkan dan kode JavaScript untuk memuat konten lebih besih nilai dari satu atau dua posisi di antara 64-bit secara dan lebih berguna untuk pengekstarkan infromasi berurutan untuk membuat banyak string 64-bit pada konted dari dokumen. sebagai sidik jari yang serupa. Akhirnya, sidik jari primer dan koresponding sidik jari hampir serupanya 3.2.2. Pentokenan. Proses ini memecah aliran teks ke akan disimpan pada trie-tree. Pada umumnya, alur banyak kata, frasa, atau elemen lainnya yang disebut kerja kami diilustrasikan paka Gambar 1. token. Setelah merapikan konten HTML melalui Untuk fase pendeteksian, kami membuat sisdik proses penguraian, konten terekstrak akan ditokenkan jari dari dokumen baru, termasuk primernya dan yang ke banyak kata. Jumlah dari kata tersebut dapat hampir serupa. Lalu, kami memeriksa apakah sidik berkurang tanpa kehilangan maksud dari dokumen jari dari dokumen baru tersebut tersedia pada trie- melalui penyaringan dan penghapusan banyak kata tree. Jika tersedia, dapat disimpulkan bahwa hubung yang populer pada proses penghetian setidaknya satu dokumen dari koleksi tersebut hampir penghapusan kata. serupa atau serupa dengan ini. 3.2.3. Penghapusan kata henti. Pada komputasi, kata henti merupakan kata yang disaring sebelumnya, atau setelahnya, pemprosesan data bahasa natural (teks) [13]. Mereka terkadang merupakan kata yang umum seperti “the”, “a”, “an” dan ”of” seperti pada Tabel 1 sering kali muncul pada konten dokumen. Penghapusan kata henti merupakan proses penyaringan dan penghapusan kata untuk mengimprovisasi kinerja algoritma.
Gambar 1: Pendeteksian dokuman hampir serupa pada fase pelatihan
3.2. Pra-Pemprosesan. Pra-pemprosesan perlu
dilakukan untuk penurunan sidik jari dan representsi trie-tree. Ia terdiri atas penguraian HTML, mentokenan, penghapusan kata henti, dan pembendungan [1]. Pada panguraian, dokumen web dianalisa ke representasi linear menurut kosa kata yang diberikan. Setelah penguraian HTML, konten web dipecah ke banyak kata melalui proses pentokenan dan mereka disaring melalui pebghapusan kata hubung seperti “is” “a” dan “an” pada prosedur menghentian penghapusan kata. Akhirnya, proses Tabel 1: Contoh Kata Henti yang disebut pembendungan memangkas kata yang disaring tersebut ke dalam basis mereka sebelum 3.2.4. Pembendungan. Pada Informaton Retrieval, pembendungan merupakan proses pengurangan kata yang berubah ke akar, dasar atau bentuk asli mereka. Program pembendungan umumnya mengacu pada algoritma pembendungan atau stemmers. Ingason et al. [14] berusaha mengubah kata ke akar linguistik yang tepat untuk memfasilitasi pengurangan kata yang memiliki kesamaan akar sebagai satu kata. Ini termasuk menghapus kata sufiks derivasi dan infleksi [4]. Contohnya, “went”, “goes” dan “gone” semuanya diringkas ke “go” asal mereka.
3.3. Pengekstrakan Sidik Jari
3.3.1. Sidik Jari Primer Dokumen. Sebuah sdiik jari
dari sokumen merupakan nilai hash fitur-fiturnya. Ia merupakan string 64-bit yang dibuat melalui algoritma sim-hash [15] sebuah fungsi hash spesial. Fungsi hash merupakan sebuah algoritma atau program yang mempetakan data dari variabel untuk menetapkan panjangnya. Nilai yang dikembalikan oleh fungsi hash disebut dengan nilai hash, kode hash, hash sums, checksums, atau hash yang disederhanakan. Kebanyakan fungsi hash terkadang Alg oritma 1: Pseudocode dari algoritma sim-hash dibuat nilai hash yang sangat berbeda bahkan untuk masukan yang serupa. Untuk tujuan pendeteksian kesamaan, sim-hash telah dikemukakan. Ini merupakan fungsi hash yang spesian yang dikembangkan oleh Charikan [15]. Fungsi hash ini dimanfaatkan untuk masukan hash yang serupa untuk nilai hash yang serupa. Awalnya, dokumen di pra-pemprosesan unu mengekstark set dari kata kunci (token) dari kontennya. Kami menginisialisasi sebuah 𝑓- dimensional vektor V dengan setiap dimensi sebagai kosong. Setiap kata kunci ditandai dengan Gambar 2: Prosedur kerja algoritma sim-hash frekuensinya (jumlah berapa kali muncul pada dokumen). Di sini, setiap kata kunci dari dokumen, 3.3.2. Enkstraksi Sidik Jari Hampir Serupa. Sebuah akan di-hash ke nilai hash 𝑓-bit. Peningkatan atau dokumen direpresentasikan oleh sebuah sidik jari penurunan pada komponen 𝑓 dari 𝑓-bit yang unik dan sidik jari dokumen hampir serupa tergantung dari beban kat atersebut. Pada langkah terkadang berbeda satu sama lain pada beberapa bit. selanjutnya, komponen tanda menentukan bit Untuk memperkaya jumlah sidik jari, kami korespondensi dari sidik jari akhir dari dokumen. mengekstrak basis sidik jari yang hampir serupa pada Prosedur kerja tersebut menerapkan sim-hash primer dari dokumen. Sidik jari tersebut memiliki untuk membuat dokumen ke sidik jari 64-bit beberapa bit yang berbeda dengan yang primer. diilustrasikan pada Gambar 2 dan pseudocode dari Posisi k pada 64-bit yang nilainya dibalikkan algoritma sim-hash telah diberikan pada untuk mengekstak yang hampir serupa akan Algoritma 1 [1]. dikomputasi melalui perhitungan kombinasi dari k. Kombinasi tapat diambil dari set ukurang 64 menggunakan formula berikut: Yang mana k adalah jumlah perbedaan bit antara kedua sidik jari.
Pada paper ini, jumlah perbedaan bit paling
Box 2: Contoh sidik jari hampir serupa banyak 2. Pada kata lain, nilai k digunakan pada algoritma ini adalah 1 dan 2. Akhirnya sebuah 3.4. Pendeteksian Hampir Serupa. Struktur data trie- dokumen memiliki sidik jari tree dan pendekatan meet-in-the-middle termasuk yang primer. memanfaatkan pendeteksian hampir serupa. Selama Kapanpunposisi bit terkomputati, nilai bit pada posisi trie-tree digunakan untuk merepresentasikan semua tersebut akan dibalik pada seteiap subset. Algoritma 2 sidik jari yang dibuat dari dokumen pasa fase mendeskripsikan pseudocode dari algoritma yang pelatihan, strategi meet-in-the middle memilikan diterapkan untuk komputasi set dari pososi subset peran yang penting dalam prosedur pendeteksian. string, serta Box 1 dan 2 mengilustrasikan penjalanan Trie-tree menyusun struktur data yang digunakan algoritma ini. untuk menyimpan set dinamis atau array terasosiasi, yang menjadi kunci beberapa string. Selanjutnya, mengizinkan banyak string dengan karakter prefiks serupa untung menggunakan data prefix yang smaa dan cukup mengekor pada data terpisah. Pertama-tama, trie-tree dibuat. Setelah Box 1: Set dari subset yang mengandung posisi bit pada string 64-bit pengekstrakan sidik jari setiap dokumen, ia akan dimasukkan ke pohon sekuensial jika tidak tersedia di sana. Pohon secara lengkap diilustrasikan pada Gambar 3. Setelah membangun trie-tree pada fase pelatihan, ia akan digunakan pada fase pendeteksian hampir serupa. Ketika crawled dokumen baru ditambahkan, kami mengerapkan pendekatan meet-in-the-middle untuk mendeteksi dokumen yang hampir serupa. Ini maksudnya crawled laman web terbaru juga dianalisa dan sidik jari dibuat melaluinya. Karenanya, sidik jari tersebut akan dibandingkan secara berurutan dengan semua sidik jari yang tersedia pada trie-tree. Jika terjadi penumpukan sidik jari dari dokumen baru dengan sidik jari manapun pada pohon, kita dapat menyimpulkan bahwa dokumne tersubut hampir serupa atau serupa. Keuntungan pendekatan meet-in- the-middle adalah ketika k adalah 1; kita dapat Algoritma 2: Pseudocode dari algoritma daftar posisi mendeteksi dua dokumen yang memiliki dua bit perbedaan pada sidik jarinya. Demikian pula, jika k adalah 2, 4-bit perbedaan antara sidik jari dapat dikenali. Pada Gambar 4 dan 5, contoh pendekatan meet-in-the-middle disediakan. Bahkan, dokumen hampir serupa dapat pula ditambahkan pada pohon yang dapat memperkaya jumlah sidik jari yang tersedia pada pohon. 4.2. Evaluasi. Eksperimen berikut didesain dan dibawa untuk memeriksa kinerja dan akusari dari metode usulan kami. Mekipun eksperimen kami telah selesai dengan dataset laman web, itu dapt pula bekerja dengan baik dan memperoleh hasil yang bagus pada pendeteksian komentr spam. Untuk mendeteksian spam sosial, kami akan menerapkan metode ini untuk dataset komentar spam. Dengan kata lain, kami akan menggunakan dataset komentar spam daripada menggunakan kumpulan laman web untuk membangun trie-tree dengan proses yang sama. Pertama-tama, kami membangun trie-tree dari Gambar 3: Sidik jari trie-tree dataset. Setiap dokumen secara berurutan dilakukan pra-pemprosesan oleh penguraian HTML, pentokenan, penghapusan kata henti, dan pembendungan sebelum membuat banyak sidik jari dari set token yang paling sering. Lalu, trie-tree dibuat melalui sidik jari tersebut dan struktunya pada Gambar 3. Dari pelatihan dataset dengan lebih dari 1000 laman web, ukuran trie-tree terdapat sekitar 22 juta Gambar 4: Contoh meet-in-the-middle (1) titik temasuk titik akar dimaan jumlah perbedaan bit antara dua sidik jari (k) adalah 2, sedangkan trie-tree sekitar 960000 titik dengan k = 1. Selanjurnya, kinerjanya setgantung dari jumlah token yang digunakan sebagai kata kunci reperesetatif dari setiap dokumen (N). Grafik pada Gambar 6 mengilustrasikan ukuran berbasis pohon pada nilai k 1 dan 2 selama ukurannya tidak berubah dengan N. Gambar 5: Contoh meet-in-the-middle saat k = 1 (2) Namun, pada Gambar 7 dan 8, grafik tersebut mengungkapkan masing-masing kinerja waktu 4. Dataset Dan Evaluasi komputasi pada fase pelatihan dan percobaan. Dalam hal evaluasi kinerja dan akurasi metode 4.1. Data Set. Sebagai pemeriksa hasil dari yang diusulkan, eksperimen selesai dengan dataset pendekatan yang kami usulkan, kami menyesuaikan pelatihan yang termasuk 176 dokuman serupa dan bagian dari dataset publik yang tersedia pada [16]. hampir serupa. Pada eksperimen ini, kami memilih Keseluruhan dataset ini mengandung subset dari data masukan dan selalu digunakan pada metode yang laman-WWW yang dikumpulkan dari departemen diusulkan pada Tabel 2. komputer sains dari beragam universitas pada Januari 1997 oleh projek World Wide Knowledge Base (Web → Kb) dari kelompok pembelajaran teks CMU [17]. Drai dataset ini, kamu secara acak mengambil lebih dari 1000 dokumen web dang menggunakannya sebagai pelatihan dataset. Berikut, subset terdiri atas Tabel 2: Masukan ekspermental 176 file dan kontennya dipilih dan diubah untuk membuat pelatihan dataset termasuk dokumen yang serupa dan hampir serupa. Tabel 3: Hasil eksperimental
Bahkan, kinerja waktu dari metoda yang kami
usulkan pastinya lebih baik daripada pekerjaan sebelumnya. Karena mereka membandingkan dengan Gambar 6: Ukuran trie-tree semua dokumen, meskilun hasilnya bagus, kinerja waktu sekitar O(d). dimana d aalah jumlah dokumen. Namun pada kasus kami, karena kami menggunakan data struktur trie tree untuk mempresentasikan sidik jari, pencarian performa hanya O(m), yang mana m adalah panjang sidik jari, yaitu 64, secara praktis tetap. Pendeteksian hampir serupa adalah masalah yang vital dalam data mining. Banyak metode yang tersedia memiliki tawaran untuk menyelesaikan masalah ini dan memperoleh beragam hasil yang berbeda [18]. Umumnya, kami membandingkan beberapa evaluasi metrik dari hasil kami dengan pekerjaan sebelumnya [1] seperti, presisi, recall dan Gambar 7: Kinerja waktu fase pelatihan F-measure. Nilai tersebut dikalkulasikan dengan formula berikut:
Komputasi nilai pada paper kami dipresentasikan
pada Gambar 9 dan 10 dengan bar biru, sementara Gambar 8: Kinerja waktu percobaan pekerjaan sebelumnya dengan bar merah.
Pada eksperimen kami memilih k sebagai 2, yang
bermaksud bahwa jumlah perbedaan bit setidaknya 2. Khususnya, set sidik jari pada kasus ini bukan hnya 2- bit perbedaan sidik jari tetapi juga 1-bit perbedaan ketika dibandingkan dengan sidik jari primer. Kita dapat mendeteksi hampir semua dokumen yang serupa dan memperoleh akurasi pendeteksian hampir serupa yang tinggi, diringkaskan pada Tabel 3. Referensi [1] J. P. Kumar and P. Govindarajulu, “Near- duplicate web page detection: an efficient approach using clustering, sentence feature and fingerprinting, ”International Journal of Computational Intelligence Systems, vol. 6, no. 1, 2013. [2] A. Z. Broder, “On the resemblance and containment of documents,” in Proceedings of the IEEE International Conference on Compression and Complexity of Sequences, pp. 21–29, June 1997. [3] D. Fetterly, M. Manasse, and M. Najork, “On the Gambar 9: Perbandingan hasil pendeteksian duplikat evolution of clusters of near-duplicate web pages,” Journal of Web Engineering, vol. 2, no. 4, pp. 228–246, 2003. [4] M. Henzinger, “Finding near-duplicate web pages: a large-scale evaluation of algorithms,” in Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 284– 291, August 2006. [5] A. Kołcz, A. Chowdhury, and J. Alspector, “Improved robustness of signature-based near- replica detection via lexicon randomization,” in Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,pp. 605–610, August 2004. Gambar 10: Perbandingan hasil pendeteksian hampir serupa [6] A. Z. Broder, S. C. Glassman, M. S. Manasse, and G. Zweig, “Syntactic clustering of the Web,” in 5. Kesimpulan Proceedings of the 6th 8 International Journal of Spam sosialmerupakan salah satu isu yang penting Distributed Sensor Networks International World dan serius pada bidang jaringan sosial. Itu jelas bahwa Wide Web Conference, pp. 393–404, April 1997. resiko sosial dan keamanan meningkat tajam karena [7] V. A. Narayana, P. Premchand, and A. isu ini. Baru-baru ini, telah banyak algoritma yang Govardhan, “Fixing the threshold for effective mengusulkan untuk menyelesaikannya dengan detection of near duplicate web documents in berbagai teknik yang berbeda. Pada paper ini, kami web crawling,” in Advanced Data Mining and mengusulkan sebuah metoe yang efektif untuk Applications, vol. 6440 of Lecture Notes in mendeteksi komentar spam pada situs jejaring sosial Computer Science,pp. 169–180, 2010. terbaru. Dengan mengerapkan data struktur trie-tree [8] J. W. Cooper, A. R. Coden, and E. W. Brown, “A dan pendekatan meet-in-the-middle, metode kami novel method for detecting similar documents,” dapat dengan mudah mendeteksi komentar yang in Proceedings of the IEEE 35th Annual Hawaii memiliki konten hampir serupa dengan koleksi spam. International Conferenceon System Sciences Hasil eksperimental telah terbukti ke-efektivan (HICSS ’02), 2002. metode kami baik akurasi dan kinerja waktu. [9] P. T. Ho, H. S. Kang, and S. R. Kim, “Graph- based KNN algorithm for spam SMS detection,” Journal of Universal Computer Science, vol. 19, no. 16, pp. 2404–2419, 2013. [10] C. Sadowski and G. Levin, “Simhash: hash- based similarity detection,” Tech. Rep., Google, 2007. [11] W. Pugh, “US Patent 6,658,423,” 2003, http://www.cs.umd.edu/∼pugh/google/Duplicate s.pdf. [12] D. Grune and C. J. H. Jacobs, Parsing Techniques A Practical Guide, Springer, 1998. [13] A. Rajaraman and J. D. Ullman, “Data mining,” in Mining of Massive Datasets, Cambridge University Press, 2011. [14] A. K. Ingason, S. Helgadóttir, H. Loftsson, and E. Rögnvaldsson, “Amixed method lemmatization algorithm using a hierarchy of linguistic identities (HOLI),” in Advances in Natural Language Processing, vol. 5221 of Lecture Notes in Computer Science, pp. 205– 216, 2008. [15] M. S. Charikar, “Similarity estimation techniques from rounding algorithms,” in Proceedings of the 34th Annual ACM Symposium on Theory of Computing, pp. 380–388, May 2002. [16]http://www.cs.cmu.edu/afs/cs.cmu.edu/project/the o-51/www/co-training/data/course-cotrain- data.tar.gz. [17]http://www.cs.cmu.edu/afs/cs.cmu.edu/project/the o-51/www/co-training/data/. [18] B. S. Alsulami, M. F. Abulkhair, and F. E. Eassa, “Near duplicate document detection survey,” International Journal of Computer Science and Communications Networks, vol. 2, no. 2, pp.147–151, 2012.