Anda di halaman 1dari 4

Consine Similarity

Kesamaan kosinus menemukan penggunaan utamanya untuk tipe data karakter di mana
sehubungan dengan pembelajaran mesin, kesamaan kosinus dapat digunakan untuk berbagai
data klasifikasi dan membantu menentukan tetangga terdekat ketika digunakan sebagai metrik
evaluasi dalam algoritma KNN. Cosinus similarity dalam sistem rekomendasi digunakan dengan
prinsip yang sama dari sudut cosinus, dimana meskipun kesamaan konten kurang mirip akan
dianggap sebagai konten yang paling tidak direkomendasikan, dan untuk kesamaan konten
yang lebih tinggi, rekomendasi yang dihasilkan akan berada di atas. Kesamaan kosinus juga
digunakan dalam data tekstual untuk menemukan kesamaan antara teks vektor dari dokumen
teks asli.

Mengapa kesamaan kosinus merupakan metrik yang populer?


Ada berbagai ukuran jarak yang digunakan sebagai metrik untuk evaluasi titik data. Beberapa di
antaranya adalah sebagai berikut.
- Euclidean Distance
- Manhattan Distance
- Minkowski Distance
- Hamming Distance dan banyak lagi.
Di antara semua metrik populer ini untuk penghitungan jarak dan ketika dipertimbangkan
untuk klasifikasi atau data teks alih-alih kesamaan kosinus, jarak Hamming dapat digunakan
sebagai metrik untuk KNN, sistem rekomendasi, dan data tekstual. Tetapi jarak hamming hanya
mempertimbangkan tipe karakter data dengan panjang yang sama tetapi kesamaan kosinus
memiliki kemampuan untuk menangani data panjang variabel. Ketika mempertimbangkan data
tekstual jarak Hamming tidak akan mempertimbangkan kata-kata yang sering muncul dalam
dokumen dan akan bertanggung jawab untuk menghasilkan indeks kesamaan yang lebih rendah
dari dokumen teks sementara kesamaan kosinus mempertimbangkan kata-kata yang sering
muncul dalam dokumen teks dan akan membantu dalam menghasilkan kesamaan yang lebih
tinggi skor untuk data teks.

Penggunaan kesamaan kosinus dalam pembelajaran mesin


Kesamaan kosinus dalam pembelajaran mesin dapat digunakan untuk tugas klasifikasi di mana
dapat digunakan sebagai metrik dalam algoritma klasifikasi KNN untuk menemukan jumlah
tetangga yang optimal dan juga model KNN yang dipasang dapat dievaluasi terhadap algoritma
pembelajaran mesin klasifikasi yang berbeda dan Pengklasifikasi KNN sendiri yang dilengkapi
dengan kesamaan kosinus sebagai metrik dapat digunakan untuk mengevaluasi berbagai
parameter kinerja seperti skor akurasi, skor AUC, dan laporan klasifikasi juga dapat diperoleh
untuk mengevaluasi parameter lain seperti presisi dan recall.
Mari kita lihat cara menggunakan kesamaan kosinus sebagai metrik dalam pembelajaran mesin
knn_model=KNeighborsClassifier(metric='cosinus')
Model di atas dapat dipasang terhadap data split dan dapat digunakan untuk mendapatkan
nilai prediksi yang dapat digunakan untuk berbagai parameter lainnya.
Jadi kesamaan cosinus dalam pembelajaran mesin dapat digunakan sebagai metrik untuk
menentukan jumlah tetangga yang optimal di mana titik data dengan kesamaan yang lebih
tinggi akan dianggap sebagai tetangga terdekat dan titik data dengan kesamaan yang lebih
rendah tidak akan dipertimbangkan. Jadi ini adalah bagaimana kesamaan kosinus digunakan
dalam pembelajaran mesin.

Penggunaan kesamaan kosinus dalam sistem rekomendasi


Sistem rekomendasi dalam pembelajaran mesin adalah salah satu algoritma yang bekerja
berdasarkan kesamaan konten. Ada berbagai cara untuk mengukur kesamaan antara dua
konten dan sistem rekomendasi pada dasarnya menggunakan matriks kesamaan untuk
merekomendasikan konten serupa kepada pengguna berdasarkan karakteristik
pengaksesannya.
Jadi data rekomendasi apa pun dapat diperoleh dan fitur yang diperlukan yang berguna untuk
merekomendasikan konten dapat diambil dari data. Setelah data tekstual yang diperlukan
tersedia, data tekstual harus divektorkan menggunakan CountVectorizer untuk mendapatkan
matriks kesamaan. Jadi setelah matriks kesamaan diperoleh, metrik kesamaan kosinus dari
scikit learn dapat digunakan untuk merekomendasikan pengguna.
dari sklearn.feature_extraction.text impor CountVectorizer
dari sklearn.metrics.pairwise impor cosinus_similarity
count_vec=CountVectorizer()
sim_matrix=count_vec.fit_transform(df['text_data'])
print('Matriks Kesamaan',sim_matrix.toarray())
cos_sim = kosinus_kesamaan(sim_matriks)
Jadi kesamaan kosinus akan menghasilkan matriks kesamaan untuk data tekstual yang dipilih
untuk rekomendasi dan konten dengan skor kesamaan yang lebih tinggi dapat diurutkan
menggunakan daftar. Di sini kesamaan kosinus akan mempertimbangkan istilah yang sering
muncul dalam data tekstual dan istilah tersebut akan divektorkan dengan frekuensi yang lebih
tinggi dan konten tersebut akan direkomendasikan dengan persentase rekomendasi yang lebih
tinggi. Jadi ini adalah bagaimana kesamaan kosinus digunakan dalam sistem rekomendasi.

Penggunaan kesamaan kosinus dengan data tekstual


Kesamaan kosinus dalam data tekstual digunakan untuk membandingkan kesamaan antara dua
dokumen teks atau teks yang diberi token. Jadi untuk menggunakan kesamaan kosinus dalam
data teks, data teks mentah harus di-token pada tahap awal, dan dari data teks yang di-token,
matriks kesamaan harus dihasilkan yang dapat diteruskan ke metrik kesamaan kosinus untuk
mengevaluasi kesamaan antara dokumen teks.
dari sklearn.feature_extraction.text impor CountVectorizer
count_vectorizer = HitungVectorizer()
sim_matrix = count_vectorizer.fit_transform(tokenized_data)
sim_matrix
dari sklearn.metrics.pairwise impor cosinus_similarity
cos_sim_matrix = kosinus_kesamaan(sim_matrix)
create_dataframe(cos_sim_matrix,tokenized_data[1:3]) ## menggunakan dua data tokenized
pertama
Jadi kode di atas dapat digunakan untuk mengukur kesamaan antara dokumen tokenized dan di
sini dua dokumen tokenized pertama dari corpus digunakan untuk mengevaluasi kesamaan
antara mereka dan output yang dihasilkan akan seperti yang ditunjukkan di bawah ini.

Sekarang mari kita coba menginterpretasikan output sampel yang akan dihasilkan oleh metrik
kesamaan kosinus. Jadi di sini kesamaan kosinus akan mempertimbangkan kata-kata yang
sering muncul antara dua token dan telah menghasilkan 50% kesamaan antara token pertama
dan kedua dalam korpus. Jadi ini adalah bagaimana kesamaan kosinus digunakan dalam data
tekstual.
Ringkasan
Di antara berbagai metrik, kesamaan kosinus sebagian besar digunakan dalam berbagai tugas
pembelajaran mesin dan dalam menangani data tekstual karena kemampuannya yang dinamis
untuk beradaptasi dengan berbagai karakteristik data. Kesamaan kosinus sepenuhnya
beroperasi pada properti sudut kosinus dan banyak digunakan dalam sistem rekomendasi
karena akan membantu merekomendasikan konten kepada pengguna sesuai dengan konten
dan karakteristiknya yang paling banyak dilihat dan juga sebagian besar digunakan dalam
menemukan kesamaan antara dokumen teks seperti yang dipertimbangkan istilah yang sering
muncul. Hal ini membuat kesamaan kosinus menjadi metrik yang populer untuk evaluasi di
berbagai aplikasi.

Anda mungkin juga menyukai