Text Mining Analysis Untuk Identifikasi Artikel Hoax Menggunakan Algoritma Cosine Similarity
Text Mining Analysis Untuk Identifikasi Artikel Hoax Menggunakan Algoritma Cosine Similarity
abstrak
Kata Kunci:
Hoax, Artikel, Cosine Similarity,
Dampak perkembangan teknologi yang signifikan dalam kehidupan sehari-hari
Text Mining. dimulai dari kegiatan yang sederhana hingga kegiatan yang membutuhkan tingkat
ketelitian yang tinggi. Perkembangan tekhnologi informasi juga turut serta
mendorong dalam penyebaran berita. Di Indonesia teknologi informasi ikut
berkembang pesat dimana pengguna internet saat ini berjumlah 132,7 juta atau
52% dari jumlah penduduk Indonesia. Pertukaran informasi antar sesama
merupakan hal yang positif, namun penyebarannya melalui media sosial yang
isinya tidak semua fakta. Dalam beberapa macam kasus yang telah terjadi
misalkan penyebaran berita yang bukan fakta sering disebut hoax. Teknologi
terkini yang bisa membantu mengatasi hal tersebut, salah satunya adalah
teknologi yang dikenal dengan nama Text Mining (Penambangan Teks). Hal ini
dimanfaatkan untuk memecahkan masalah yang di hadapi oleh pengguna internet
terhadap informasi palsu (hoax).
1. Latar Belakang ini banyak sekali informasi simpang siur tentang Covid-
19 dimedia sosial sehingga banyak masyarakat
Perkembangan teknologi saat ini sangat memberikan termakan Hoax yang beredar. Selain itu di tahun
pengaruh dalalam kehidupan sehari-hari mulai dari politik juga sering dijumpai adanya berita-berita Hoax
kegiatan sederhana sampai pada kegiatan yang yang diperuntukkan untuk propaganda politik dalam
membutuhkan ketelitian tinggi, perkembangan menarik simpati masyarakat maupun untuk
teknologi informasi juga turut serta mendorong menjatuhkan lawan politiknya.
dalam penyebaran berita. Di Indonesia teknologi
informasi ikut berkembang pesat dimana pengguna Teknologi terkini yang bisa membantu mengatasi hal
internet saat ini berjumlah 132,7 juta atau 52% dari tersebut, salah satunya adalah teknologi yang dikenal
jumlah penduduk Indonesia[1]. dengan nama Text Mining [5]. Berbeda dengan Data
Mining yang menggali, menemukan atau menambang
Pertukaran informasi merupakan hal yang positif, informasi dari kumpulan data (dataset)[6], Text Mining
namun penyebarannya melalui media sosial yang merupakan salah satu langkah dari analisis teks yang
isinya tidak semua fakta . Dalam beberapa kasus yang dilakukan secara otomatis oleh komputer untuk
telah terjadi misalkan penyebaran berita yang bukan menggali informasi yang berkualitas dari suatu
fakta sering disebut Hoax. Sedangkan Hoax adalah rangkaian teks yang terangkum dalam sebuah
informasi berbahaya yang sering menyesatkan dokumen [7, 8].
persepsi manusia dengan menyebarkan informasi
yang salah namun dianggap sebagai kebenaran[2]. Text Mining merupakan teknologi yang dapat
membantu memecahkan masalah kompleks yang
Salah satu dampak buruk dari informasi Hoax adalah didukung oleh perangkat–perangkat teknologi yang
kerusakan finansial dan menyakiti setiap semakin maju dan sudah lumrah di gunakan oleh
penggunanya bahkan lebih buruknya Hoax memiliki masyarakat umum. Hal ini dimanfaatkan untuk
kemampuan untuk mengumpulkan informasi dan memecahkan masalah yang di hadapi oleh pengguna
meyakinkan penerima untuk menghadiri acara yang internet terhadap informasi palsu (Hoax). Dengan
tidak pernah ada[3]. Menteri komunikasi dan kemampuan text mining tersebut memberikan
informatika mengatakan sejauh ini sudah ada hampir peluang bagi penulis untuk membuat aplikasi yang
800 ribu situs yang menyebar Hoax di internet. dapat membantu dalam mendeteksi Berita Hoax.
Sehingga dari banyaknya jumlah situs Hoax yang
tersebar di internet akan sangat sulit untuk Cosine similarity adalah metode similaritas yang
mengelompokkan informasinya [4]. digunakan untuk menghitung kesamaan antara dua
dokumen. Metode yang dipergunakan yaitu
Dalam Cambridge Dictionari, kata Hoax sendiri artinya melakukan perhitungan ukuran kesamaan antara dua
tipuan atau lelucon. Kegiatan menipu, rencana buah vektor dalam sebuah ruang dimensi yang didapat
menipu, trik menipu, disebut dengan Hoax.: dari nilai cosinus sudut dari perkalian antara dua vektor
Sedangkan menurut wikipedia, Hoax adalah usaha yang dibandingkan karena cosinus dari 0 adalah 1 dan
untuk menipu atau mengakali kurang dari 1 untuk nilai sudut yang lain[9].
pembaca/pendengarnya untuk mempercayai sesuatu,
Hoax tujuannya yakni membuat opini publik, Penelitian dengan menggunaan Algoritma Cosine
menggiring opini, membentuk persepsi, juga untuk Similarity diantaranya adalah:
bersenang-senang yang menguji kecerdasan dan 1. Peracangan Sistem Klasifikasi Surat
kecermatan pengguna internet dan media sosial. Elektronik (E-Mail) Menggunakan Metode
Cosine Similarity[10].
Permasalahan utama yang diangkat dalam penelitian 2. Latent semantic analysis and cosine similarity for
ini adalah maraknya artikel-artikel Hoax khususnya hadith search engine [11].
yang dimuat pada media online sehingga 3. The optimalization of cosine similarity method in
menyebabkan masyarakat kesulitan dalam detecting similarity degree of final project by the college
membedakan dan menyaring berita yang Hoax students[12] dan lain-lain.
dengan bukan. Apalagi ditengah pandemic seperti saat
134 Yulianty Lasena, Husdi, Maryam Hasan / JTIK (Jurnal Teknologi Informasi dan Komunikasi) 4 (2) 2020, 132-137
Pada penelitian tersebut Algoritma Cosine Similarity tidak konsisten, dan banyak mengandung noise
dapat digunakan untuk mengukur kesamaan teks sehingga diperlukan upaya normalisasi agar data dapat
yang berkonsepkan text mining. Berdasarkan diproses lebih lanjut[13]. Tiga Proses Utama dalam
permasalahan dan beberapa penelitin yang telah Pra-Pemrosesan data secara umum adalah[3] :
diuraikan maka pada penelitian ini akan a. Analisis Leksikal.
menggunakan Algoritma Cosine Similarity untuk b. Penghapusan Stopwords.
mengukur tingkat kemiripan dokumen. Dan hasil c. Stemming.
akhirnya diharapkan dapat memberikan persentase
dari berita yang kemungkinan mengandung Hoax Salah Satu Algoritma yang sering digunakan dalam
atau tidak. information retrieval untuk menentukan ukuran
kesamaan adalah Cosine similarity [14] dan akan
2. Metode Penelitian digunakan untuk melakukan perhitungan kesamaan
dari dokumen pada penelitin ini. Adapun rumus yang
Model Usulan digunakan pada Cosine Similarity adalah sbb. [15]
Adapun Model yang diusulkan dalam penelitian ini
adalah sebagai berikut :
Mulai
Gambar 5 pada aplikasi ini yaitu mengecek artikel [2] A. Errissya Rasywir and Purwarianti,
Hoax. Tampilan ini dilakukan dengan cara “Eksperimen pada Sistem Klasifikasi Berita
memasukkan berita kemudian di pilih tombol cek Hoax Berbahasa Indonesia Berbasis
artikel untuk mendapatkan hasil identifikasi tentang Pembelajaran Mesin,” 2015.
artikel hoax.
[3] G. W. Frista, “Deteksi Konten Hoax Berbahasa
Indonesia Pada Media Sosial Menggunakan
Metode Levenshtein Distance,” pp. 1–78, 2018.