Cosine Similarity Antar Dokumen Sebuah Contoh

Diunggah oleh

Okie Moet

0% menganggap dokumen ini bermanfaat (0 suara)

125 tayangan5 halaman

Hak Cipta

Format Tersedia

PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Attribution Non-Commercial (BY-NC)

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

125 tayangan5 halaman

Cosine Similarity Antar Dokumen Sebuah Contoh

Diunggah oleh

Okie Moet

Hak Cipta:

Attribution Non-Commercial (BY-NC)

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 5

Cari di dalam dokumen

Cosine Similarity Antar Dokumen Sebuah Contoh

Lunix96 at {yahoo.com, gmail.com} Diketahui terdapat 6 dokumen (D1 s.d D6) sebagai berikut: D1. Tokoh politik dari berbagai partai mengadakan rapat untuk membahas koalisi baru menjelang pemilu 2014 dan beberapa pilkada 2012 dan 2013. D2. Partai politik sudah tidak dapat dipercaya. Sebagian besar partai mengutamakan kepentingan partai daripada kebutuhan rakyat D3. Partai demokrat memenangkan pemilu 2009 karena figur SBY. Partai Golkar berusaha menang pada 2012. Pertandingan 2 partai ini akan seru. D4. Pertandingan pertama antara Persema dan Persebaya diadakan di Malang. Ini akan menguntungkan tuan rumah D5. Beberapa pertandingan sepakbola yang dilakoni persebaya pada masa kampanye Pilkada 2010 Kota surabaya akan ditunda. D6. Sepakbola Indonesia memang belum bangkit. Manajemen tim, pertandingan dan tiket perlu ditingkatkan, bukan hanya fokus pada kemenangan tim.

Pertanyaan. Jika terdapat query (Q): menang pertandingan, tentukan daftar dokumen yang paling relevan dengan Query tersebut!. Langkah 1. Preprocessing terhadap semua (n= 7) dokumen yang terlibat, yaitu Q, D1, D2, D3, D4, D5 dan D6. Langkah 1a: Lakukan tokenisasi, stop words removal dan stemming. Hasilnya diperlihatkan pada tabel berikut: Dokumen Q D1 D2 D3 D4 D5 D6 Term yang mewakili dokumen Menang tanding tokoh politik partai rapat bahas koalisi baru jelang pemilu 2014 pilkada 2012 2013 partai politik percaya besar partai utama penting partai butuh rakyat partai demokrat menang pemilu 2009 figur sby partai golkar usaha menang 2012 tanding partai seru tanding pertama persema persebaya malang untung rumah tanding sepakbola persebaya kampanye pilkada 2010 kota surabaya tunda sepakbola indonesia bangkit manajemen tim tanding tiket tingkat fokus menang tim

Langkah 1b. Tentukan bobot untuk setiap term dari 7 dokumen tersebut.

Langkah 2: Hitung kemiripan vektor [dokumen] query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumusnya adalah sebagai berikut:

cos ij

d d
ik k 2 ik k

d d
k

2 jk

Langkah 2a: Hitung hasil perkalian skalar antara Q dan 6 dokumen lain. Hasilnya perkalian dari setiap dokumen dengan Q dijumlahkan (sesuai pembilang pada rumus di atas) Langkah 2b: Hitung panjang setiap dokumen, termasuk Q. Caranya, kuadratkan bobot setiap term dalam setiap dokumen, jumlahkan nilai kuadrat dan terakhir akarkan. Sisi kiri dari tabel di bawah ini mewakili langkah 2a dan sisi kanan memperlihatkan langkah 2b.

Langkah 2c: Terapkan rumus cosine similarity. Hitung kemiripan Q dengan D1, D2 dan seterusnya sampai dengan D6. Cos (Q, D1) = 0/(0,396*2,652) = 0 Cos (Q, D4) = 0,021/(0,396*1,972) = 0,0274 Dan seterusnya. Cos (Q, D6) = 0,157/(0,396*2,177) = 0,1819 Hasil perhitungan tersebut diperlihatkan tabel berikut: D1 D2 D3 D4 D5 D6

0,27981 0,0274 0,0255 0,1819

Langkah 3: Urutkan hasil perhitungan kemiripan, diperoleh: 1 D3 2 D6 3 D4 4 D5 5 D1 6 D2

Benarkah Query relevan dengan dokumen D3? Perhatikan secara seksama. Ternyata? Silakan anda simpulkan sendiri! Jika menang tanding yang dimaksud adalah terkait perlombaan partai politik maka D3 memang layak sebagai jawaban tetapi jika yang dimaksudkan adalah pertandingan olah raga, maka D3 harusnya tidak hadir, apalagi pada urutan pertama. Berapa jumlah total dokumen yang relevan dengan Query tersebut (anggap menang tanding pada olahraga)? Terdapat 3 dokumen, yaitu D4, D5, dan D6. Berapa nilai recall-nya jika keempat dokumen tersebut diserahkan kepada pengguna? Recall = 3/3 x 100 % = 100% Bagaimana dengan presisi? Jika dikembalikan hanya 1 dokumen, maka presisi = 0. Jika diberikan kepada pengguna keempat dokumen tersebut, padahal hanya 3 dokumenyang relevan, maka: Presisi = 3/4 x 100 % = 75 % Recall dan Presisi ini digunakan sebagai parameter untuk mengetahui bagus dan tidaknya hasil pemrosesan terhadap query yang dilakukan oleh sistem temu balik informasi. Semoga bermanfaat

Anda mungkin juga menyukai

10 Cara Menginterpretasikan Data Yang Disajikan Dalam Bentuk Tabel
Dokumen13 halaman
10 Cara Menginterpretasikan Data Yang Disajikan Dalam Bentuk Tabel
M Rusli Lili
100% (2)
Naskah Soal Paket A
Dokumen12 halaman
Naskah Soal Paket A
arsad
100% (1)
Soal Usp Simkomdig
Dokumen14 halaman
Soal Usp Simkomdig
Muhammad Rafli
83% (6)
Komputasi DescriptiveAnalyticsStatistics
Dokumen29 halaman
Komputasi DescriptiveAnalyticsStatistics
Felicia Priskilla
Belum ada peringkat
LKPD Penyajian Data
Dokumen13 halaman
LKPD Penyajian Data
Dwi Setiawan
Belum ada peringkat
Naskah Soal Paket A
Dokumen12 halaman
Naskah Soal Paket A
MISBAKHUL MUNIR
0% (1)
SOAL PTS GANJIL TP23 - XI DKV-Pilihan
Dokumen10 halaman
SOAL PTS GANJIL TP23 - XI DKV-Pilihan
defaisdedy
Belum ada peringkat
Menghitung Umur
Dokumen3 halaman
Menghitung Umur
Copy Paste
Belum ada peringkat
Simulasi Digital
Dokumen10 halaman
Simulasi Digital
Nanda
Belum ada peringkat
Statistika Bisnis - Pengantar Statistik
Dokumen12 halaman
Statistika Bisnis - Pengantar Statistik
Nurul Awanis
Belum ada peringkat
Naskah Soal SIMDIG Paket A
Dokumen12 halaman
Naskah Soal SIMDIG Paket A
Excell Dhizky
Belum ada peringkat
Rangkuman GDSS
Dokumen7 halaman
Rangkuman GDSS
Aulia Adistanti
Belum ada peringkat
Matematika Ekonomi Dan Bisnis
Dokumen14 halaman
Matematika Ekonomi Dan Bisnis
Oak Wood
Belum ada peringkat
Data
Dokumen14 halaman
Data
Novi Dwi Aryanti
Belum ada peringkat
Nelly Yulia - Laporan Sel - Basis Data (E)
Dokumen6 halaman
Nelly Yulia - Laporan Sel - Basis Data (E)
nelly yulia
Belum ada peringkat
Laporan Tubes 2 PTI
Dokumen12 halaman
Laporan Tubes 2 PTI
dimas
100% (1)
Desil Dan Persentil
Dokumen17 halaman
Desil Dan Persentil
Nashiruddin Muslim
Belum ada peringkat
Soal Usbn Utama
Dokumen20 halaman
Soal Usbn Utama
alifah
Belum ada peringkat
Laporan MTK
Dokumen12 halaman
Laporan MTK
Musa Wwimin
Belum ada peringkat
Soal Dan Pembahasan Materi Statistika
Dokumen2 halaman
Soal Dan Pembahasan Materi Statistika
Alex Jonathan
100% (1)
Soal Dan Pembahasan Materi Statistika
Dokumen2 halaman
Soal Dan Pembahasan Materi Statistika
Rifqie Ilham Firdaus
Belum ada peringkat
NASKAH SOAL USP PAKET Tidak Terpakai B
Dokumen12 halaman
NASKAH SOAL USP PAKET Tidak Terpakai B
NurNadifMaulana
Belum ada peringkat
Soal USBN 1920 - A
Dokumen19 halaman
Soal USBN 1920 - A
aditia dwiyusmanto
Belum ada peringkat
Makalah Kelompok 1 Setelah Uts Pengantar Staistika
Dokumen9 halaman
Makalah Kelompok 1 Setelah Uts Pengantar Staistika
pito elson
Belum ada peringkat
DESIL Data Tunggal
Dokumen2 halaman
DESIL Data Tunggal
Fadhila
Belum ada peringkat
Pengolahan Data Kel.6
Dokumen24 halaman
Pengolahan Data Kel.6
Demi Premium
100% (1)
Jwban
Dokumen4 halaman
Jwban
smkbundamulia XI-MM-1
100% (1)
Soal STS Informatika Kelas 7 Key Less
Dokumen7 halaman
Soal STS Informatika Kelas 7 Key Less
Fitra Mega Kurniawan
Belum ada peringkat
Soal Utama UASBN KKPI Paket A
Dokumen12 halaman
Soal Utama UASBN KKPI Paket A
dodol garut
Belum ada peringkat
Naskah Soal Usp Paket A
Dokumen19 halaman
Naskah Soal Usp Paket A
NurNadifMaulana
Belum ada peringkat
Membuat Laporan Penjualan Tiket Dengan Kombinasi Rumus Excel
Dokumen2 halaman
Membuat Laporan Penjualan Tiket Dengan Kombinasi Rumus Excel
Vicky Dharma Saputra
Belum ada peringkat
A710180059 - Meida Prihatiningrum - Laporan Resmi BAB 7
Dokumen9 halaman
A710180059 - Meida Prihatiningrum - Laporan Resmi BAB 7
Meida Prihatiningrum
Belum ada peringkat
Makalah Ke10 Analisis Soal Pilihan Ganda Dan Uraian Pemodelan Rasch Ministep
Dokumen28 halaman
Makalah Ke10 Analisis Soal Pilihan Ganda Dan Uraian Pemodelan Rasch Ministep
Muhammad Jukhair J Husain
Belum ada peringkat
Bab 11 Sma
Dokumen24 halaman
Bab 11 Sma
Hesti A. Priejanto
Belum ada peringkat
Soal Us (40 Soal) Susulan
Dokumen11 halaman
Soal Us (40 Soal) Susulan
Adhitya Pradista
Belum ada peringkat
Analisis Data
Dokumen8 halaman
Analisis Data
Ratnasari
Belum ada peringkat
Matematika
Dokumen3 halaman
Matematika
Abdhillah Muhammad
Belum ada peringkat
MODUL 11 Algortima Naive Bayes Untuk Pengelompokan Dokumen
Dokumen5 halaman
MODUL 11 Algortima Naive Bayes Untuk Pengelompokan Dokumen
Ahmad Attamimi
Belum ada peringkat
Laporan Praktikum - Ery Sigit Wahyudi
Dokumen9 halaman
Laporan Praktikum - Ery Sigit Wahyudi
Ery Sigit Wahyudi
Belum ada peringkat
Naskah Soal SIMKOMDIG
Dokumen6 halaman
Naskah Soal SIMKOMDIG
jupred
Belum ada peringkat
Analisis Korespondensi PDF
Dokumen7 halaman
Analisis Korespondensi PDF
khairunnishayyu
Belum ada peringkat
Metode Analisis Dan Perancangan Terstruktur Analisis Context Diagram (CD) Dan Data Flow Diagram (DFD) Dalam Sistem Penjualan/retail
Dokumen7 halaman
Metode Analisis Dan Perancangan Terstruktur Analisis Context Diagram (CD) Dan Data Flow Diagram (DFD) Dalam Sistem Penjualan/retail
Sekar Madu Kusumawardani
Belum ada peringkat
World Output
Dokumen20 halaman
World Output
Krisna
Belum ada peringkat
Paket 1
Dokumen14 halaman
Paket 1
Ita Arma Dewi
Belum ada peringkat
Soal Mooc PTK
Dokumen3 halaman
Soal Mooc PTK
Lisnadra D' Lis
Belum ada peringkat
Soal Us Prod Ap
Dokumen10 halaman
Soal Us Prod Ap
nevyperbyyany
Belum ada peringkat
MatematikaMenyenangkan# Statistika
Dokumen37 halaman
MatematikaMenyenangkan# Statistika
Ani Ismayani
Belum ada peringkat
Latihan Microsoft Excel
Dokumen6 halaman
Latihan Microsoft Excel
Dyah Kurniasih
Belum ada peringkat
LKPD Statistik
Dokumen6 halaman
LKPD Statistik
Faisal Haris
Belum ada peringkat
Kerja Kursus Matematik Tambahan Tahun 2013
Dokumen24 halaman
Kerja Kursus Matematik Tambahan Tahun 2013
Shafiq Lee
79% (29)
LKPD Statistik
Dokumen6 halaman
LKPD Statistik
Faisal Haris
Belum ada peringkat
Naskah Soal Simdig Kur 2013 p01
Dokumen13 halaman
Naskah Soal Simdig Kur 2013 p01
KevinSyahrial
Belum ada peringkat
Informatika 8 - Soal Pat GNP 2122
Dokumen4 halaman
Informatika 8 - Soal Pat GNP 2122
Nimah Chajati
Belum ada peringkat
Contoh Soal US
Dokumen10 halaman
Contoh Soal US
Irwan Kurniawan
Belum ada peringkat
Soal Informatika Kelas 7 Kurikulum Merdeka
Dokumen8 halaman
Soal Informatika Kelas 7 Kurikulum Merdeka
H Abdul Halim
Belum ada peringkat
Tryout MTK SD Kelas Vi Tapel 2013-2014
Dokumen13 halaman
Tryout MTK SD Kelas Vi Tapel 2013-2014
abuzada
100% (1)
Gaya Coulomb 1
Dokumen6 halaman
Gaya Coulomb 1
Budi Setiawan
Belum ada peringkat
Gaya Coulomb 1
Dokumen6 halaman
Gaya Coulomb 1
Budi Setiawan
Belum ada peringkat
Menggunakan Vietspider Crawler
Dokumen11 halaman
Menggunakan Vietspider Crawler
Okie Moet
Belum ada peringkat
Css Layout Menata Layout Web Dengan CSS
Dokumen7 halaman
Css Layout Menata Layout Web Dengan CSS
Okie Moet
Belum ada peringkat
Ids
Dokumen17 halaman
Ids
Okie Moet
Belum ada peringkat