Nama Anggota :
DAFTAR ISI ii
DAFTAR GAMBAR iii
DAFTAR TABEL iv
BAB I PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Rumusan Masalah 2
1.3 Tujuan Penelitian 2
1.4 Batasan Masalah 2
1.5 Manfaat Penelitian 3
1.6 Sistematika Penulisan 3
1.6.1 Bab I Pendahuluan 3
1.6.2 Bab II Teori Singkat 3
1.6.3 Bab III Alur Pengembangan Sistem 3
1.6.4 Bab II Teori Singkat 3
1.6.5 Bab III Alur Pengembangan Sistem 3
BAB II TEORI SINGKAT 4
2.1 Sistem Rekomendasi 4
2.2 Data Pre-Processing 4
2.3 Bag-of-Words 5
2.4 Cosine Similarity 5
BAB III ALUR PENGEMBANGAN SISTEM 8
3.1 Alur Penelitian 8
3.2 Penjabaran Alur Penelitian 8
3.3 Ilustrasi Penerapan Metode 10
ii
3.3.1 Ilustrasi Feature Extraction 10
3.3.2 Ilustrasi Data Preprocessing 10
3.3.3 Ilustrasi Bag Of Word dan Cosine Similarity 13
BAB IV HASIL DAN PEMBAHASAN 16
4.1 Hasil Penelitian 16
4.2 Hasil Evaluasi 19
4.3 Pembahasan 21
BAB V KESIMPULAN DAN SARAN 25
5.1 Kesimpulan 25
5.2 Saran 25
DAFTAR PUSTAKA 26
ii
DAFTAR GAMBAR
iii
DAFTAR TABEL
iv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pada masa perkembangan teknologi saat ini berbagai upaya dilakukan untuk mendukung
kebutuhan manusia, salah satunya adalah dengan membantu memberikan pilihan yang sesuai
dengan kebutuhan manusia pada berbagai bidang. Bentuk alternatif yang bisa diberikan untuk
menyesuaikan pilihan berdasarkan preferensi pengguna adalah melalui sistem rekomendasi [1].
Sistem rekomendasi dapat diterapkan pada berbagai sektor industri termasuk pada sektor
industri musik [2]. Terdapat berbagai metode dalam membangun suatu sistem rekomendasi salah
satunya adalah metode Bag of Word (BoW). Metode BoW sendiri merupakan metode yang
efektif dalam mendapatkan informasi dari suatu korelasi informasi dalam jangkauan yang
panjang [3]. Dengan menggunakan metode ini, suatu data akan direpresentasikan dalam bentuk
vektor dan dapat digunakan dalam melakukan klasifikasi [4-6] maupun membentuk retrivasi
dokumen [7]
Dalam membangun sistem rekomendasi terdapat berbagai metode yang dapat ditempuh
sesuai dengan kondisi dan data yang dimiliki, namun demikian setiap data yang akan diolah
harus melalui tahapan preprocessing terlebih dahulu. Proses preprocessing memiliki tujuan
untuk menyadur informasi yang dibutuhkan dan meninggalkan apa yang tidak dibutuhkan [8-10].
Kendati demikian pre-processing data selalu membawa resiko terhadap data yang diolah [8][11]
[12], sehingga terdapat berbagai metode pemrosesan data yang harus disesuaikan.
Lematisasi dan Stemming merupakan dua buah metode yang dapat digunakan untuk
menormalisasikan data dalam bentuk kata. Stemming merupakan teknik yang telah banyak
digunakan untuk melakukan normalisasi kata, teknik ini akan mengelola imbuhan kata
berdasarkan struktur morfologinya dan mengurangi jumlah kueri indeks secara bersamaan [13-
15]. Stemming sendiri terbukti memberikan hasil yang efektif pada beberapa penelitian terdahulu
[14][16], Stemming juga memberikan hasil yang lebih relevan ketika digunakan untuk dokumen
atau kueri singkat, stemming memberikan hasil non-relevan yang lebih sedikit dari seluruh
dokumen, namun di sisi lain penelitian ini juga membuktikan tingginya ambiguitas dari metode
Stemming karena terdapat overstem yang diterapkan dalam bahasa inggris [16].
1
2
Sebaliknya Lematisasi merupakan salah satu teknik normalisasi lainnya dengan manfaat
yang sama seperti yang dimiliki oleh stemming. Metode ini mengurangi kesalahan ambiguitas
dan menormalisasi berbagai jenis kata terutama pada kelompok kata maupun frasa [13]. Namun
demikian metode ini bergantung pada koleksi data yang ada pada kamus yang dimilikinya.
Pemaparan diatas telah menyebutkan bahwa pada kueri pendek metode Stemming
memberikan hasil yang baik dan lebih relevan untuk beberapa bahasa [17-21], namun pada kasus
berbahasa inggris terdapat overstem dan justru menimbulkan ambiguitas. Sebaliknya metode
Lematisasi dapat mengatasi permasalahan ambiguitas dan overstem tersebut dalam bahasa
inggris, namun efektifitas yang diberikan lebih baik dalam implementasi kueri panjang. Oleh
sebab itu penulis tertarik untuk melakukan penelitian dengan menggunakan kueri pendek
berbahasa inggris dalam membandingkan akurasi yang dihasilkan dari metode Lematisasi dan
Stemming.
Berdasarkan latar belakang di atas, rumusan masalah yang ingin diselesaikan dari
penelitian ini yaitu bagaimana tingkat akurasi dari metode preprocessing menggunakan
Stemming dan Lematisasi pada algoritma Bag of Word untuk model rekomendasi musik
berbahasa inggris?
Berdasarkan rumusan masalah tersebut, tujuan dari penelitian ini yaitu mengetahui
tingkat akurasi dari metode preprocessing menggunakan Stemming dan Lematisasi pada
algoritma Bag of Word untuk model rekomendasi musik berbahasa inggris?
Berdasarkan tujuan penelitian di atas, penulis menentukan batasan dari penelitian ini
adalah sebagai berikut:
1. Model yang dibentuk hanya dapat menangani judul musik dengan batasan dataset sebesar
1000 data.
3
Adapun manfaat yang diharapkan dari penelitian ini yaitu dapat mengetahui metode pre-
processing data yang lebih efektif dalam memberikan rekomendasi berbahasa inggris untuk kueri
pendek diantara Lematisasi dan Stemming serta diharapkan dapat mendukung kemajuan ilmu
pengetahuan terutama dalam bidang pengolahan bahasa alam.
Data Preprocessing adalah bagian penting dari analisis data. Proses ini bertujuan untuk
menghilangkan data yang tidak diinginkan dan berfokus pada data yang lebih penting. Pre-
processing merupakan langkah pertama yang penting dalam melakukan analisis data dimana data
mentah akan diubah menjadi data yang sudah “dibersihkan”, yang berarti variasi yang tidak
diinginkan telah dihapus. Hal ini membuat data yang sudah dibersihkan ini lebih sesuai dengan
tujuan analisis data [25].
Data Pre-processing dapat digunakan untuk menyesuaikan variabilitas dari setiap
variabel yang diukur dan hubungannya agar lebih sesuai dengan tujuan dari analisis data [26].
Pilihan metode atau kombinasi pra-pemrosesan yang optimal metode tergantung pada banyak
sifat yang berbeda dari data dan pada tujuan analisis data. Pilihan ini membutuhkan pemikiran
yang sangat hati-hati: ketika berhadapan dengan kumpulan data besar, dapat berdampak pada
masing-masing langkah pra-pemrosesan data numerik yang tidak transparan. Namun,
kesimpulan yang dapat ditarik harus kuat untuk jenis pra-pemrosesan data yang akan diterapkan
[27].
1
5
2.3 Bag-of-Words
Metodologi Bag-of-words pertama kali diusulkan untuk analisis dokumen teks dan
selanjutnya diadaptasi untuk komputer aplikasi penglihatan. Model diterapkan pada gambar
menggunakan analogi visual dari sebuah kata, yang dibentuk oleh fitur visual kuantisasi vektor
seperti wilayah deskriptor. Untuk menggunakan fitur dari Bag-of-words dari sebuah gambar,
user harus melibatkan langkah-langkah berikut [28]:
1. Secara otomatis mendeteksi wilayah/tempat menarik
2. Menghitung deskriptor lokal atas wilayah/titik tersebut
3. Mengkuantisasi deskriptor menjadi kata-kata untuk membentuk visual kosa kata, dan
4. Menemukan kejadian dalam gambar masing-masing kata khusus dalam kosa kata
untuk membangun BoW fitur (atau histogram frekuensi kata).
Model BoW dapat didefinisikan sebagai berikut. Diberikan sebuah dataset pelatihan D
berisi n gambar yang diwakili oleh D = D1, D2, ..., dan Dn, di mana D adalah fitur visual yang
akan diekstrak, dan juga merupakan algoritma pembelajaran tanpa pengawasan khusus, seperti k-
means, yang digunakan untuk mengelompokkan D berdasarkan jumlah kata visual yang tetap.
Kategori diwakili oleh W = W 1, W2, ..., dan Wv, di mana V adalah nomor cluster. Kemudian, kita
dapat meringkas data dalam tabel konkurensi V ×N jumlah N ij = n(wi, dj), di mana n(wi, dj)
menunjukkan seberapa sering kata wi muncul gambar di [29].
Cosine Similarity adalah adalah sebuah metrik yang banyak digunakan karena sederhana
dan efektif. yang dapat mengukur kesamaan sebagai sudut antara dua vektor. Ukuran dasar
kesamaan pada Cosine Similarity tidak peka terhadap besaran. Namun, properti ini tidak selalu
menguntungkan. Misalnya, dua pola dengan nilai atribut yang sangat berbeda mungkin memiliki
ukuran kesamaan yang sangat tinggi [30].
Cosine similarity (CS) antara dua vektor x dan y didefinisikan sebagai:
❑
x y
CS ( x , y )=
‖ x ‖‖ y ‖
2.5 Stemming
Salah satu algoritma yang digunakan untuk membantu dalam text mining adalah
stemming [32]. Stemming adalah metode yang digunakan untuk menghilangkan imbuhan dari
kata. Stemming adalah salah satu tahapan preprocessing. Hasil dari proses stemming disebut
stem. Penerapan proses stemming pada setiap bahasa berbeda-beda sesuai dengan modalitas
masing-masing bahasa. Jadi tujuan dari proses stemming adalah sama, untuk mendapatkan kata
dasar, dan tetap membutuhkan algoritma yang berbeda untuk setiap bahasa.
Penerapan stemming dalam bahasa inggris lebih mudah sedangkan proses stemming
dalam bahasa indonesia memiliki tingkat kesulitan yang lebih tinggi. Dalam hal ini dikarenakan
morfologi bahasa indonesia yang cukup beranekaragam. pada proses stemming ada dua metode
yaitu dengan berdasarkan kamus dan rule based. Beberapa algoritma yang digunakan seperti
algoritma Nazief dan Adriani, Vega, Arifin dan Setiono dan Porter, setiap algoritma nya
penerapannya berbeda-beda[33].
g. Suffix Backtracking
1 n
MAE = Σ |f - y |
n i=1 i i
Dimana :
fi : adalah nilai hasil peramalan,
yi : adalah nilai sebenarnya, dan
η : adalah jumlah data.
Berdasarkan rumus 1 di atas, MAE menghitung rata – rata error dengan memberikan
bobot yang sama untuk seluruh data ( i=1 . .. η ¿ secara intuitif. Untuk evaluasi model peramalan,
MAE lebih intuitif dalam memberikan rata – rata error dari keseluruhan data. Dalam kasus ini
pemilihan MAE menjadi tepat karena seluruh data diberikan bobot yang sama [37].
BAB III
Adapun alur penelitian yang akan dilakukan pada penelitian ini terangkum dalam
diagram alir pada Gambar 3.1 berikut.
1. Rumusan Masalah
Perumusan masalah adalah proses yang dilakukan untuk mengetahui merumuskan
permasalahan yang telah diidentifikasi sebagai landasan dari tujuan penelitian.
2. Studi Literatur
Studi literatur adalah proses yang bertujuan untuk menemukan penelitian terdahulu yang
berkaitan dengan dengan topik serta teori terkait metode serta hal - hal yang berhubungan dengan
topik.
8
9
10
3. Pengumpulan Data
Proses pengumpulan data dilakukan dengan tujuan mendapatkan data yang akan diolah
pada penelitian. Pengumpulan data pada penelitian dilakukan menggunakan dataset musik dari
Billboard. Dataset yang digunakan sebagai data testing ini berupa 1000 judul musik.
3. Rancangan Model
Perancangan model merupakan tahapan yang dilakukan dengan tujuan membangun
model rekomendasi berdasarkan metode yang telah ditetapkan. Adapun tahapan dalam
perancangan model adalah sebagai berikut.
Pada Gambar 3.2 di atas dapat dilihat bahwa pada awal perancangan model melalui tahap
feature extraction yaitu tahapan untuk mengambil kolom tabel yang penting seperti judul, genre,
deskripsi, casting, dan director. Kemudian selanjutnya tahap pemrosesan data. Tahapan ini
dimulai dengan case folding yaitu mengubah seluruh huruf dari data ke dalam huruf kecil.
Selanjutnya adalah data cleaning atau pembersihan data dari partikel yang tidak dibutuhkan.
Kemudian dilanjutkan dengan tahapan stopword removal atau menghilangkan kata-kata yang
tidak memiliki makna dan tidak memberikan pengaruh dalam penilaian atau evaluasi. Tahap
berikutnya adalah tokenisasi atau mengubah kalimat kedalam bentuk token kata. Setelah tahap
11
tokenisasi selesai, kemudian dilakukan dua tahapan yaitu stemming atau menghapus imbuhan
pada kata dan mengembalikannya kepada akar kata sesuai dengan aturan morfologi dan
lematisasi yaitu mengembalikan kata berdasarkan kamus data.
Data yang telah melalui tahap preprocessing akan digunakan untuk membangun
pemodelan rekomendasi berdasarkan Bag Of Word menggunakan stemmer dan lematisasi.
Kemudian akan dicari cosine matrix nya. Yang nanti nya hasil akhir dari kedua metode ini akan
digunakan untuk evaluasi pada tahap berikutnya. Pada tahap evaluasi, hasil dari perancangan
model akan dibandingkan menggunakan Mean Absolute Error (MAE) untuk mencari metode
terbaik dari kedua pemrosesan data tersebut.
4. Evaluasi
Tahapan ini akan mengevaluasi hasil dari perancangan sistem dengan menggunakan
metode evaluasi Mean Absolute Error (MAE). MAE adalah penilaian secara linear, yang berarti
semua perbedaan dari setiap individu mempunyai bobot yang sama dalam rata-rata.
5. Pembahasan
Pembahasan merupakan tahapan yang ditempuh untuk membahas hasil dari rancangan
model dan evaluasi serta melihat capaian dari penelitian.
1. Case Folding
Case Folding merupakan tahapan untuk mengonversi seluruh teks menjadi huruf kecil,
tahapan ini akan mengganti seluruh huruf kapital dengan tujuan untuk konsistensi data.
Input Output
There are a number of Love musiks showing in 2022 there are a number of love musiks showing in 2022
such as, Thor Love and Thunder, Black, Young :Dumb. such as, thor love and thunder, black young dumb.
2. Data Cleaning
Data Cleaning merupakan tahapan untuk menghilangkan tanda baca dari berita karena
tidak mempengaruhi informasi yang dimuat oleh dokumen.
Input Output
there are a number of love musiks showing in such as, there are a number of love musiks showing in such as
thor love and thunder, black young : dumb. thor love and thunder black young dumb.
3. Stopword Removal
Tahapan yang dilakukan untuk menghapus kata-kata yang dianggap tidak penting atau
tidak mewakili suatu dokumen.
Input Output
there are a number of love musiks showing in such as number love musiks showing thor love thunder black
thor love and thunder black young dumb. young dumb.
4. Tokenisasi
Tahapan tokenisasi merupakan tahap yang dilakukan untuk memisahkan setiap kata
dalam kalimat menjadi token kata.
Input Output
13
number love musiks showing thor love thunder black ['number', 'love', 'musiks', 'showing', 'thor', 'love',
young dumb. 'thunder', 'black', 'young', 'dumb']
5. Stemming
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.5 Stemming
Input Output
['number', 'love', 'musiks', 'showing', 'thor', 'love', [‘number’, ‘love’, ‘musik’, ‘show’, ‘thor’ , ‘love’,
'thunder', 'black', 'young', 'dumb'] ‘thunder’, ‘black’, ‘young’, ‘dumb’]
6. Lematisasi
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.6 Lematisasi
Input Output
[‘there’, ‘ are’, ‘a’, ‘number’, ‘of’, ‘love’, ‘musiks’, [‘number’, ‘love’, ‘musik’, ‘show’, ‘thor’ , ‘love’,
‘showing’, ‘in’ , ‘2022’, ‘such’ , ‘as’ , ‘thor’, ‘love’, ‘thunder’, ‘black’, ‘young’, ‘dumb’ ]
‘and’, ‘thunder’, ‘black’, ‘young’, ‘dumb’]
14
Dokumen Deskripsi
Adapun Ilustrasi perhitungan Bag Of Word dapat dilihat pada Tabel 3.8 sebagai berikut.
Frekuensi
Term D1 x D2 D 12 D 22
D1 D2
children 1 1 1 1 1
musik 1 1 1 1 1
with 1 0 0 1 0
cheerfull 1 0 0 1 0
and 1 0 0 1 0
fun 1 0 0 1 0
genre 1 0 0 1 0
pop 0 1 0 0 1
reggae 0 1 0 0 1
15
Frekuensi
Term D1 x D2 D1
2
D2
2
D1 D2
that 0 1 0 0 1
admire 0 1 0 0 1
Jumlah 2 7 6
R1 R2 R3 R1 R2 R3 R1 R2 R3
D1 D2 D4 D5 D1 D4 D2 D2 D3 D4
D2 D5 D3 D1 D5 D2 D4 D4 D5 D1
D3 D2 D3 D2 D2 D1 D4 D1 D5 D2
D4 D4 D3 D5 D2 D5 D3 D1 D5 D3
16
R1 R2 R3 R1 R2 R3 R1 R2 R3
D5 D1 D2 D5 D2 D4 D5 D4 D1 D2
Stemming 1 1 2 1 1 6
Lematisasi 1 1 1 1 1 5
BAB IV
BAB V
5.1 Kesimpulan
5.2 Saran
Hasil dari penelitian sangat bergantung dari dataset yang digunakan dan program yang
dijalankan, untuk memperoleh hasil yanag tepat disrankan penelitian berikutnya dapat
mendapatkan dataset dan membuat program yang bisa dijalankan.
25
DAFTAR PUSTAKA
[2] M. K. P. Hidayat, “Model Sistem Informasi Toko Musik Digital Dengan Recommender
System,” p. 3, 2013.
[4] D. Blei, A. Ng, and M. Jordan, “Latent Dirichlet Allo-cation,” Journal of Machine
Learning Research, pp. 993–1022, 2003.
[5] T. L. Griffiths and M. Steyvers, A road to meaning. Lau-rence Erlbaum, 2007, ch.
Probabilistic topic models.
[7] X. Wei and W. B. Croft, “LDA-based document models for ad-hoc retrieval,” in
Proceedings of ACM SIGIR, 2006.
[8] J. Engel, et al., Breaking with trends in pre-processing? Trac. Trends Anal.Chem. 50
(2013) 96e106.
[9] Å. Rinnan, F.v.d. Berg, S.B. Engelsen, Review of the most common pre-processing
techniques for near-infrared spectra, Trac. Trends Anal. Chem. 28 (10) (2009)
1201e1222.
[10] L.C. Lee, C.Y. Liong, A.A. Jemain, A contemporary review on Data Preprocessing
(DP) practice strategy in ATR-FTIR spectrum, Chemometr. Intell. Lab. Syst. 163
(2017) 64e75
[11] P. Oliveri, et al., The impact of signal pre-processing on the final interpretation of
analytical outcomes e a tutorial, Anal. Chim. Acta 1058 (2019) 9e17.
[12] J. Gerretzen, et al., Simple and effective way for data preprocessing selection based on
design of Experiments, Anal. Chem. 87 (24) (2015) 12096e12103.
[13] Alkula, R. From plain character strings to meaningful words: Producing better full text
databases for inflectional and compounding languages with morphological analysis
26
27
[16] Hull, D. Stemming algorithms: a case study for detailed evaluation. Journal of the
American Society for Information Science, 47, 1 (1996), 70-84
[17] Popovic, M., and Willett, P. The effectiveness of stemming for natural-language access
to Slovene textual data. Journal of the American Society for Information Science, 43, 1
(1992), 384-390.
[18] Savoy, J. A stemming procedure and stopword list for general French corpora. Journal
of the American Society for Information Science, 50, 10 (1999), 944-952.
[19] Kalamboukis, T. Z. Suffix stripping with modern Greek. Program, 29, 3 (1995), 313-
321.
[20] Abu-Salem, H., Al-Omari, M., and Evens, M. W. Stemming methodologies over
individual query words for an Arabic information retrieval system. Journal of the
American Society for Information Science, 50, 6 (1999), 524-529.
[21] Rosell, M. Improving clustering of Swedish newspaper articles using stemming and
compound splitting. In Fourteenth Nordic Conference on Computational Linguistics
(NoDaLiDa 2003) (Reykjavik, Island, May 30-31, 2003)
information content of metabolomics data,” BMC Genomics, vol. 7, pp. 1–15, 2006, doi:
10.1186/1471-2164-7-142.
[27] A. Bosch, X. Muñoz, and R. Martí, “Which is the best way to organize/classify images
by content?,” Image Vis. Comput., vol. 25, no. 6, pp. 778–791, 2007, doi:
10.1016/j.imavis.2006.07.015.
[29] P. Xia, L. Zhang, and F. Li, “Learning similarity with cosine similarity ensemble,” Inf.
Sci. (Ny)., vol. 307, pp. 39–52, 2015, doi: 10.1016/j.ins.2015.02.024.
[30] H. V. Nguyen and L. Bai, “Cosine similarity metric learning for face verification,” Lect.
Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes
Bioinformatics), vol. 6493 LNCS, no. PART 2, pp. 709–720, 2011, doi: 10.1007/978-3-
642-19309-5_55.
[36] Subagyo, Pangestu, 1986, Forecasting Konsep dan Aplikasi, Yogyakarta, BPPE UGM.
[37] A. M. Andik Adi Suryanto, “Penerapan Metode Mean Absolute Error (Mea) Dalam
Algoritma Regresi Linier Untuk Prediksi Produksi Padi,” Sains dan Teknologi, vol. 11,
2019.