Nama Anggota :
DAFTAR ISI ii
DAFTAR GAMBAR iii
DAFTAR TABEL iv
BAB I PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Rumusan Masalah 2
1.3 Tujuan Penelitian 2
1.4 Batasan Masalah 2
1.5 Manfaat Penelitian 3
1.6 Sistematika Penulisan 3
1.6.1 Bab I Pendahuluan 3
1.6.2 Bab II Teori Singkat 3
1.6.3 Bab III Alur Pengembangan Sistem 3
1.6.4 Bab II Teori Singkat 3
1.6.5 Bab III Alur Pengembangan Sistem 3
BAB II TEORI SINGKAT 4
2.1 Sistem Rekomendasi 4
2.2 Data Pre-Processing 4
2.3 Bag-of-Words 5
2.4 Cosine Similarity 5
BAB III ALUR PENGEMBANGAN SISTEM 8
3.1 Alur Penelitian 8
3.2 Penjabaran Alur Penelitian 8
3.3 Ilustrasi Penerapan Metode 10
ii
3.3.1 Ilustrasi Feature Extraction 10
3.3.2 Ilustrasi Data Preprocessing 10
3.3.3 Ilustrasi Bag Of Word dan Cosine Similarity 13
BAB IV HASIL DAN PEMBAHASAN 16
4.1 Hasil Penelitian 16
4.2 Hasil Evaluasi 19
4.3 Pembahasan 21
BAB V KESIMPULAN DAN SARAN 25
5.1 Kesimpulan 25
5.2 Saran 25
DAFTAR PUSTAKA 26
ii
DAFTAR GAMBAR
iii
DAFTAR TABEL
iv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pada masa perkembangan teknologi saat ini berbagai upaya dilakukan untuk mendukung
kebutuhan manusia, salah satunya adalah dengan membantu memberikan pilihan yang sesuai
dengan kebutuhan manusia pada berbagai bidang. Bentuk alternatif yang bisa diberikan untuk
menyesuaikan pilihan berdasarkan preferensi pengguna adalah melalui sistem rekomendasi [1].
Sistem rekomendasi dapat diterapkan pada berbagai sektor industri termasuk pada sektor
industri film [2]. Terdapat berbagai metode dalam membangun suatu sistem rekomendasi salah
satunya adalah metode Bag of Word (BoW). Metode BoW sendiri merupakan metode yang
efektif dalam mendapatkan informasi dari suatu korelasi informasi dalam jangkauan yang
panjang [3]. Dengan menggunakan metode ini, suatu data akan direpresentasikan dalam bentuk
vektor dan dapat digunakan dalam melakukan klasifikasi [4-6] maupun membentuk retrivasi
dokumen [7]
Dalam membangun sistem rekomendasi terdapat berbagai metode yang dapat ditempuh
sesuai dengan kondisi dan data yang dimiliki, namun demikian setiap data yang akan diolah
harus melalui tahapan preprocessing terlebih dahulu. Proses preprocessing memiliki tujuan
untuk menyadur informasi yang dibutuhkan dan meninggalkan apa yang tidak dibutuhkan [8-10].
Kendati demikian pre-processing data selalu membawa resiko terhadap data yang diolah [8][11]
[12], sehingga terdapat berbagai metode pemrosesan data yang harus disesuaikan.
Lematisasi dan Stemming merupakan dua buah metode yang dapat digunakan untuk
menormalisasikan data dalam bentuk kata. Stemming merupakan teknik yang telah banyak
digunakan untuk melakukan normalisasi kata, teknik ini akan mengelola imbuhan kata
berdasarkan struktur morfologinya dan mengurangi jumlah kueri indeks secara bersamaan [13-
15]. Stemming sendiri terbukti memberikan hasil yang efektif pada beberapa penelitian terdahulu
[14][16], Stemming juga memberikan hasil yang lebih relevan ketika digunakan untuk dokumen
atau kueri singkat, stemming memberikan hasil non-relevan yang lebih sedikit dari seluruh
dokumen, namun di sisi lain penelitian ini juga membuktikan tingginya ambiguitas dari metode
Stemming karena terdapat overstem yang diterapkan dalam bahasa inggris [16].
1
2
Sebaliknya Lematisasi merupakan salah satu teknik normalisasi lainnya dengan manfaat
yang sama seperti yang dimiliki oleh stemming. Metode ini mengurangi kesalahan ambiguitas
dan menormalisasi berbagai jenis kata terutama pada kelompok kata maupun frasa [13]. Namun
demikian metode ini bergantung pada koleksi data yang ada pada kamus yang dimilikinya.
Pemaparan diatas telah menyebutkan bahwa pada kueri pendek metode Stemming
memberikan hasil yang baik dan lebih relevan untuk beberapa bahasa [17-21], namun pada kasus
berbahasa inggris terdapat overstem dan justru menimbulkan ambiguitas. Sebaliknya metode
Lematisasi dapat mengatasi permasalahan ambiguitas dan overstem tersebut dalam bahasa
inggris, namun efektifitas yang diberikan lebih baik dalam implementasi kueri panjang. Oleh
sebab itu penulis tertarik untuk melakukan penelitian dengan menggunakan kueri pendek
berbahasa inggris dalam membandingkan akurasi yang dihasilkan dari metode Lematisasi dan
Stemming.
Berdasarkan latar belakang di atas, rumusan masalah yang ingin diselesaikan dari
penelitian ini yaitu bagaimana tingkat akurasi dari metode preprocessing menggunakan
Stemming dan Lematisasi pada algoritma Bag of Word untuk model rekomendasi film berbahasa
inggris?
Berdasarkan rumusan masalah tersebut, tujuan dari penelitian ini yaitu mengetahui
tingkat akurasi dari metode preprocessing menggunakan Stemming dan Lematisasi pada
algoritma Bag of Word untuk model rekomendasi film berbahasa inggris?
Berdasarkan tujuan penelitian di atas, penulis menentukan batasan dari penelitian ini
adalah sebagai berikut:
1. Model yang dibentuk hanya dapat menangani judul film dengan batasan dataset sebesar
1000 data.
3
Adapun manfaat yang diharapkan dari penelitian ini yaitu dapat mengetahui metode pre-
processing data yang lebih efektif dalam memberikan rekomendasi berbahasa inggris untuk kueri
pendek diantara Lematisasi dan Stemming serta diharapkan dapat mendukung kemajuan ilmu
pengetahuan terutama dalam bidang pengolahan bahasa alam.
Data Preprocessing adalah bagian penting dari analisis data. Proses ini bertujuan untuk
menghilangkan data yang tidak diinginkan dan berfokus pada data yang lebih penting. Pre-
processing merupakan langkah pertama yang penting dalam melakukan analisis data dimana data
mentah akan diubah menjadi data yang sudah “dibersihkan”, yang berarti variasi yang tidak
diinginkan telah dihapus. Hal ini membuat data yang sudah dibersihkan ini lebih sesuai dengan
tujuan analisis data [25].
Data Pre-processing dapat digunakan untuk menyesuaikan variabilitas dari setiap
variabel yang diukur dan hubungannya agar lebih sesuai dengan tujuan dari analisis data [26].
Pilihan metode atau kombinasi pra-pemrosesan yang optimal metode tergantung pada banyak
sifat yang berbeda dari data dan pada tujuan analisis data. Pilihan ini membutuhkan pemikiran
yang sangat hati-hati: ketika berhadapan dengan kumpulan data besar, dapat berdampak pada
masing-masing langkah pra-pemrosesan data numerik yang tidak transparan. Namun,
kesimpulan yang dapat ditarik harus kuat untuk jenis pra-pemrosesan data yang akan diterapkan
[27].
1
5
2.3 Bag-of-Words
Metodologi Bag-of-words pertama kali diusulkan untuk analisis dokumen teks dan
selanjutnya diadaptasi untuk komputer aplikasi penglihatan. Model diterapkan pada gambar
menggunakan analogi visual dari sebuah kata, yang dibentuk oleh fitur visual kuantisasi vektor
seperti wilayah deskriptor. Untuk menggunakan fitur dari Bag-of-words dari sebuah gambar,
user harus melibatkan langkah-langkah berikut [28]:
1. Secara otomatis mendeteksi wilayah/tempat menarik
2. Menghitung deskriptor lokal atas wilayah/titik tersebut
3. Mengkuantisasi deskriptor menjadi kata-kata untuk membentuk visual kosa kata, dan
4. Menemukan kejadian dalam gambar masing-masing kata khusus dalam kosa kata
untuk membangun BoW fitur (atau histogram frekuensi kata).
Model BoW dapat didefinisikan sebagai berikut. Diberikan sebuah dataset pelatihan D
berisi n gambar yang diwakili oleh D = D1, D2, ..., dan Dn, di mana D adalah fitur visual yang
akan diekstrak, dan juga merupakan algoritma pembelajaran tanpa pengawasan khusus, seperti k-
means, yang digunakan untuk mengelompokkan D berdasarkan jumlah kata visual yang tetap.
Kategori diwakili oleh W = W 1, W2, ..., dan Wv, di mana V adalah nomor cluster. Kemudian, kita
dapat meringkas data dalam tabel konkurensi V ×N jumlah N ij = n(wi, dj), di mana n(wi, dj)
menunjukkan seberapa sering kata wi muncul gambar di [29].
Cosine Similarity adalah adalah sebuah metrik yang banyak digunakan karena sederhana
dan efektif. yang dapat mengukur kesamaan sebagai sudut antara dua vektor. Ukuran dasar
kesamaan pada Cosine Similarity tidak peka terhadap besaran. Namun, properti ini tidak selalu
menguntungkan. Misalnya, dua pola dengan nilai atribut yang sangat berbeda mungkin memiliki
ukuran kesamaan yang sangat tinggi [30].
Cosine similarity (CS) antara dua vektor x dan y didefinisikan sebagai:
❑
x y
CS ( x , y )=
‖ x ‖‖ y ‖
2.5 Stemming
Salah satu algoritma yang digunakan untuk membantu dalam text mining adalah
stemming [32]. Stemming adalah metode yang digunakan untuk menghilangkan imbuhan dari
kata. Stemming adalah salah satu tahapan preprocessing. Hasil dari proses stemming disebut
stem. Penerapan proses stemming pada setiap bahasa berbeda-beda sesuai dengan modalitas
masing-masing bahasa. Jadi tujuan dari proses stemming adalah sama, untuk mendapatkan kata
dasar, dan tetap membutuhkan algoritma yang berbeda untuk setiap bahasa.
Penerapan stemming dalam bahasa inggris lebih mudah sedangkan proses stemming
dalam bahasa indonesia memiliki tingkat kesulitan yang lebih tinggi. Dalam hal ini dikarenakan
morfologi bahasa indonesia yang cukup beranekaragam. pada proses stemming ada dua metode
yaitu dengan berdasarkan kamus dan rule based. Beberapa algoritma yang digunakan seperti
algoritma Nazief dan Adriani, Vega, Arifin dan Setiono dan Porter, setiap algoritma nya
penerapannya berbeda-beda[33].
g. Suffix Backtracking
1 n
MAE = Σ |f - y |
n i=1 i i
Dimana :
fi : adalah nilai hasil peramalan,
yi : adalah nilai sebenarnya, dan
η : adalah jumlah data.
Berdasarkan rumus 1 di atas, MAE menghitung rata – rata error dengan memberikan
bobot yang sama untuk seluruh data ( i=1 . .. η ¿ secara intuitif. Untuk evaluasi model peramalan,
MAE lebih intuitif dalam memberikan rata – rata error dari keseluruhan data. Dalam kasus ini
pemilihan MAE menjadi tepat karena seluruh data diberikan bobot yang sama [37].
BAB III
Adapun alur penelitian yang akan dilakukan pada penelitian ini terangkum dalam
diagram alir pada Gambar 3.1 berikut.
1. Rumusan Masalah
Perumusan masalah adalah proses yang dilakukan untuk mengetahui merumuskan
permasalahan yang telah diidentifikasi sebagai landasan dari tujuan penelitian.
2. Studi Literatur
Studi literatur adalah proses yang bertujuan untuk menemukan penelitian terdahulu yang
berkaitan dengan dengan topik serta teori terkait metode serta hal - hal yang berhubungan dengan
topik.
8
9
10
3. Pengumpulan Data
Proses pengumpulan data dilakukan dengan tujuan mendapatkan data yang akan diolah
pada penelitian. Pengumpulan data pada penelitian dilakukan menggunakan dataset film dari
IMDB. Dataset yang digunakan sebagai data testing ini berupa 1000 judul film.
3. Rancangan Model
Perancangan model merupakan tahapan yang dilakukan dengan tujuan membangun
model rekomendasi berdasarkan metode yang telah ditetapkan. Adapun tahapan dalam
perancangan model adalah sebagai berikut.
Pada Gambar 3.2 di atas dapat dilihat bahwa pada awal perancangan model melalui tahap
feature extraction yaitu tahapan untuk mengambil kolom tabel yang penting seperti judul, genre,
deskripsi, casting, dan director. Kemudian selanjutnya tahap pemrosesan data. Tahapan ini
dimulai dengan case folding yaitu mengubah seluruh huruf dari data ke dalam huruf kecil.
Selanjutnya adalah data cleaning atau pembersihan data dari partikel yang tidak dibutuhkan.
Kemudian dilanjutkan dengan tahapan stopword removal atau menghilangkan kata-kata yang
tidak memiliki makna dan tidak memberikan pengaruh dalam penilaian atau evaluasi. Tahap
berikutnya adalah tokenisasi atau mengubah kalimat kedalam bentuk token kata. Setelah tahap
11
tokenisasi selesai, kemudian dilakukan dua tahapan yaitu stemming atau menghapus imbuhan
pada kata dan mengembalikannya kepada akar kata sesuai dengan aturan morfologi dan
lematisasi yaitu mengembalikan kata berdasarkan kamus data.
Data yang telah melalui tahap preprocessing akan digunakan untuk membangun
pemodelan rekomendasi berdasarkan Bag Of Word menggunakan stemmer dan lematisasi.
Kemudian akan dicari cosine matrix nya. Yang nanti nya hasil akhir dari kedua metode ini akan
digunakan untuk evaluasi pada tahap berikutnya. Pada tahap evaluasi, hasil dari perancangan
model akan dibandingkan menggunakan Mean Absolute Error (MAE) untuk mencari metode
terbaik dari kedua pemrosesan data tersebut.
4. Evaluasi
Tahapan ini akan mengevaluasi hasil dari perancangan sistem dengan menggunakan
metode evaluasi Mean Absolute Error (MAE). MAE adalah penilaian secara linear, yang berarti
semua perbedaan dari setiap individu mempunyai bobot yang sama dalam rata-rata.
5. Pembahasan
Pembahasan merupakan tahapan yang ditempuh untuk membahas hasil dari rancangan
model dan evaluasi serta melihat capaian dari penelitian.
1. Case Folding
Case Folding merupakan tahapan untuk mengonversi seluruh teks menjadi huruf kecil,
tahapan ini akan mengganti seluruh huruf kapital dengan tujuan untuk konsistensi data.
Input Output
There are a number of Marvel films showing in 2022 there are a number of marvel films showing in 2022
such as, Thor Love and Thunder, Black, Panther : such as, thor love and thunder, black panther wakanda
Wakanda Forever and She Hulk. forever and she hulk.
2. Data Cleaning
Data Cleaning merupakan tahapan untuk menghilangkan tanda baca dari berita karena
tidak mempengaruhi informasi yang dimuat oleh dokumen.
Input Output
there are a number of marvel films showing in such as, there are a number of marvel films showing in such as
thor love and thunder, black panther : wakanda forever thor love and thunder black panther wakanda forever and
and she hulk. she hulk
3. Stopword Removal
Tahapan yang dilakukan untuk menghapus kata-kata yang dianggap tidak penting atau
tidak mewakili suatu dokumen.
Input Output
there are a number of marvel films showing in such as number marvel films showing thor love thunder black
thor love and thunder black panther wakanda forever panther wakanda forever hulk
and she hulk
4. Tokenisasi
Tahapan tokenisasi merupakan tahap yang dilakukan untuk memisahkan setiap kata
dalam kalimat menjadi token kata.
13
Input Output
number marvel films showing thor love thunder black ['number', 'marvel', 'films', 'showing', 'thor', 'love',
panther wakanda forever hulk 'thunder', 'black', 'panther', 'wakanda', 'forever', 'hulk']
5. Stemming
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.5 Stemming
Input Output
['number', 'marvel', 'films', 'showing', 'thor', 'love', [‘number’, ‘marvel’, ‘film’, ‘show’, ‘thor’ , ‘love’,
'thunder', 'black', 'panther', 'wakanda', 'forever', 'hulk'] ‘thunder’, ‘black’, ‘panther’, ‘wakanda’ ‘forev’, ‘hulk’]
6. Lematisasi
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.6 Lematisasi
Input Output
[‘there’, ‘ are’, ‘a’, ‘number’, ‘of’, ‘marvel’, ‘films’, [‘number’, ‘marvel’, ‘film’, ‘show’, ‘thor’ , ‘love’,
‘showing’, ‘in’ , ‘2022’, ‘such’ , ‘as’ , ‘thor’, ‘love’, ‘thunder’, ‘black’, ‘panther’, ‘wakanda’ ‘forever’,
‘and’, ‘thunder’, ‘black’, ‘panther’, ‘wakanda’, ‘hulk’]
‘forever’’, ‘dan’, ‘she’, ‘hulk’]
14
Dokumen Deskripsi
Adapun Ilustrasi perhitungan Bag Of Word dapat dilihat pada Tabel 3.8 sebagai berikut.
Frekuensi
Term D1 x D2 D 12 D 22
D1 D2
children 1 1 1 1 1
film 1 1 1 1 1
with 1 0 0 1 0
cheerfull 1 0 0 1 0
and 1 0 0 1 0
fun 1 0 0 1 0
theme 1 0 0 1 0
superhero 0 1 0 0 1
fighting 0 1 0 0 1
15
Frekuensi
Term D1 x D2 D1
2
D2
2
D1 D2
that 0 1 0 0 1
admire 0 1 0 0 1
Jumlah 2 7 6
R1 R2 R3 R1 R2 R3 R1 R2 R3
D1 D2 D4 D5 D1 D4 D2 D2 D3 D4
D2 D5 D3 D1 D5 D2 D4 D4 D5 D1
D3 D2 D3 D2 D2 D1 D4 D1 D5 D2
D4 D4 D3 D5 D2 D5 D3 D1 D5 D3
16
R1 R2 R3 R1 R2 R3 R1 R2 R3
D5 D1 D2 D5 D2 D4 D5 D4 D1 D2
Stemming 1 1 2 1 1 6
Lematisasi 1 1 1 1 1 5
Setelah itu akan dilakukan ekstraksi fitur yang akan digunakan dalam penelitian ini. Fitur
yang digunakan adalah series title, overview, genre, director, dan actor. Ekstraksi fitur dapat
dilihat pada gambar 4.2
16
18
Hasil ekstraksi fitur pada gambar 4.2 akan dilakukan data preprocessing seperti data
cleaning, stopword removal, case folding, stemming, dan lematisasi. Hasil preprocessing dapat
dilihat pada gambar 4.3
Setelah itu akan dilakukan vektorisasi menggunakan Bag of Word agar dapat membentuk
model rekomendasi berdasarkan kemiripan Cosine dari metode Stemming dan Lematisas. Hasil
rekomendasi tersebut dipetakan dalam diagram heatmap untuk kedua metodenya. Heatmap
Cosine Similarity untuk Stemming dapat dilihat pada gambar 4.4.
Heatmap untuk Model Cosine Similarity menggunakan Lematisasi dapat dilihat pada gambar
4.5.
Contoh dari hasil rekomendasi film untuk kedua metode Stemming dan lematisasi dapat dilihat
pada tabel 4.1
Hasil Rekomendasi
No Stemming Lematisasi
Hasil evaluasi untuk sistem rekomendasi film menggunakan Mean Absolute Error
(MAE). Hasil MAE dapat dilihat pada gambar 4.8.
Berdasarkan visualisasi pada gambar 4.8 dapat dilihat bahwa hasil MAE untuk Stemming
dan Lematisasi hampir sama, akan tetapi terdapat sampel nilai MAE yang berbeda. Untuk lebih
jelasnya dapat dilihat pada gambar 4.9.
Berdasarkan gambar 4.9 terdapat nilai sampel MAE yang berbeda yaitu nilai sampel pada
indeks 10, 32, dan 36. Hasil ketiga nilai sampel tersebut dapat dilihat pada tabel 4.2
10 2 3
32 2 3
36 5 5
Berdasarkan perbedaan dari ketiga sampel diatas memberikan hasil bahwa nilai error
yang diberikan oleh hasil Stemming lebih kecil dari hasil Lematisasi. Nilai error hasil Stemming
dan lematisasi dapat dilihat pada tabel 4.3
4.3 Pembahasan
Berdasarkan hasil evaluasi, terdapat nilai MAE yang berbeda berdasarkan Stemming dan
Lematisasi. Nilai MAE yang berbeda terdapat pada nilai indeks ke 10, 32, dan 36. Untuk melihat
perbedaanya pertama dapat dilihat hasil Stemming dan Lematisasi untuk ketiga indeks tersebut.
Hasil Stemming dan Lematisasi ketiga indeks dapat dilihat pada tabel 4.4
Berdasarkan tabel 4.5 terdapat hasil yang berbeda ketika mengubah kata menjadi akar
kata menggunakan Stemming dan Lematisasi. Kata yang berbeda tersebut dapat dilihat pada tabel
4.6
10 1. power 1. powerful
2. adventur 2. adventure
32 1. aveng 1. avengers
2. infin 2. infinity
3. alli 3. ally
4. assembl 4. assemble
5. revers 5. reverse
6. thano 6. thanos
7. restor 7. restore
8. balanc 8. balance
9. univers 9. universe
10. devast 10. devastate
11. anthoni 11. anthony
36 1. spi 1. spy
2. apart 2. apartment
3. becom 3. become
4. convinc 4. convince
5. kelli 5. kelly
Berdasarkan tabel 4.6 hasil rekomendasi yang dihasilkan Stemming dan Lematisasi dapat
dilihat pada tabel 4.7
25
10 [5, 226, 13, 618, 169] [5, 226, 618, 162, 267] [5, 10, 14, 618, 16]
32 [60, 583, 737, 705, 339] [60, 583, 705, 339, 179] [60, 357, 583, 473, 737]
36 [876, 162, 22, 693, 321] [162, 22, 693, 321, 187] [119, 49, 118, 187, 50 ]
Berdasarkan dari hasil pengujian yang telah dilakukan dihasilkan bahwa nilai MAE pada
stemming lebih kecil dari nilai MAE pada lematisasi yang mengartikan bahwa teks pre-
prosesing menggunakan stemming lebih baik dibandingkan dengan menggunakan lematisasi. Hal
ini disebabkan karena pada saat menggunakan metode Stemming kata berimbuhan akan
dikembalikan pada akar kata, sehingga memungkinkan kata tersebut tersebar pada berbagai
dokumen.
Pada metode Bag of Word frekuensi sebaran kata akan mempengaruhi nilai bobot dari
setiap dokumen, oleh sebab itu kemungkinan mendapatkan nilai kemiripan Cosine yang lebih
besar juga semakin meningkat. Berbeda dengan metode Lematisasi yang melihat lema sesuai
dengan kamus, kata tidak akan dikembalikan ke akar kata melainkan diujikan berdasarkan kamus
lema yang dimiliki (dalam penelitian ini menggunakan WordNet), oleh sebab itu beberapa kata
dengan akar makna yang sama tetap dikategorikan sebagai indeks yang berbeda dan
membedakan frekuensinya pada pembobotan Bag of Word.
Sebagai contoh : Menggunakan kata yang terdapat pada tabel 4.7, yakni : “power”. Hasil
pencarian akan menemukan pada index ke-10 jika menggunakan stemming. Namun tidak akan
ditemukan pada index ke-10 jika menggunakan lematisasi karena, pada metode lematisasi hanya
akan melakukan pencarian pada kata “powerful”. Oleh karena itu, hasil yang didapatkan oleh
stemming akan memberikan jangkauan hasil yang lebih banyak jika dibandingkan dengan
lematisasi. Hal ini akan memperbesar kemungkinan dokumen yang diperoleh dari metode
lematisasi mendapatkan hasil yang lebih relevan. Oleh sebab itu pula nilai error atau MAE yang
didapatkan oleh lematisasi menjadi lebih besar.
26
BAB V
5.1 Kesimpulan
5.2 Saran
Hasil dari penelitian sangat bergantung dari dataset yang digunakan, untuk memperoleh
selisih yang lebih besar dan signifikan, disarankan menggunakan volume data yang lebih besar
dalam evaluasi. Selain itu penelitian berikutnya dapat membandingkan kedua metode
normalisasi ini menggunakan algoritma dan kamus yang berbeda untuk memperoleh hasil yang
lebih baik dalam membangun model rekomendasi.
25
DAFTAR PUSTAKA
[2] M. K. P. Hidayat, “Model Sistem Informasi Toko Film Digital Dengan Recommender
System,” p. 3, 2013.
[4] D. Blei, A. Ng, and M. Jordan, “Latent Dirichlet Allo-cation,” Journal of Machine
Learning Research, pp. 993–1022, 2003.
[5] T. L. Griffiths and M. Steyvers, A road to meaning. Lau-rence Erlbaum, 2007, ch.
Probabilistic topic models.
[7] X. Wei and W. B. Croft, “LDA-based document models for ad-hoc retrieval,” in
Proceedings of ACM SIGIR, 2006.
[8] J. Engel, et al., Breaking with trends in pre-processing? Trac. Trends Anal.Chem. 50
(2013) 96e106.
[9] Å. Rinnan, F.v.d. Berg, S.B. Engelsen, Review of the most common pre-processing
techniques for near-infrared spectra, Trac. Trends Anal. Chem. 28 (10) (2009)
1201e1222.
[10] L.C. Lee, C.Y. Liong, A.A. Jemain, A contemporary review on Data Preprocessing
(DP) practice strategy in ATR-FTIR spectrum, Chemometr. Intell. Lab. Syst. 163
(2017) 64e75
[11] P. Oliveri, et al., The impact of signal pre-processing on the final interpretation of
analytical outcomes e a tutorial, Anal. Chim. Acta 1058 (2019) 9e17.
[12] J. Gerretzen, et al., Simple and effective way for data preprocessing selection based on
design of Experiments, Anal. Chem. 87 (24) (2015) 12096e12103.
[13] Alkula, R. From plain character strings to meaningful words: Producing better full text
databases for inflectional and compounding languages with morphological analysis
26
27
[16] Hull, D. Stemming algorithms: a case study for detailed evaluation. Journal of the
American Society for Information Science, 47, 1 (1996), 70-84
[17] Popovic, M., and Willett, P. The effectiveness of stemming for natural-language access
to Slovene textual data. Journal of the American Society for Information Science, 43, 1
(1992), 384-390.
[18] Savoy, J. A stemming procedure and stopword list for general French corpora. Journal
of the American Society for Information Science, 50, 10 (1999), 944-952.
[19] Kalamboukis, T. Z. Suffix stripping with modern Greek. Program, 29, 3 (1995), 313-
321.
[20] Abu-Salem, H., Al-Omari, M., and Evens, M. W. Stemming methodologies over
individual query words for an Arabic information retrieval system. Journal of the
American Society for Information Science, 50, 6 (1999), 524-529.
[21] Rosell, M. Improving clustering of Swedish newspaper articles using stemming and
compound splitting. In Fourteenth Nordic Conference on Computational Linguistics
(NoDaLiDa 2003) (Reykjavik, Island, May 30-31, 2003)
information content of metabolomics data,” BMC Genomics, vol. 7, pp. 1–15, 2006, doi:
10.1186/1471-2164-7-142.
[27] A. Bosch, X. Muñoz, and R. Martí, “Which is the best way to organize/classify images
by content?,” Image Vis. Comput., vol. 25, no. 6, pp. 778–791, 2007, doi:
10.1016/j.imavis.2006.07.015.
[29] P. Xia, L. Zhang, and F. Li, “Learning similarity with cosine similarity ensemble,” Inf.
Sci. (Ny)., vol. 307, pp. 39–52, 2015, doi: 10.1016/j.ins.2015.02.024.
[30] H. V. Nguyen and L. Bai, “Cosine similarity metric learning for face verification,” Lect.
Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes
Bioinformatics), vol. 6493 LNCS, no. PART 2, pp. 709–720, 2011, doi: 10.1007/978-3-
642-19309-5_55.
[36] Subagyo, Pangestu, 1986, Forecasting Konsep dan Aplikasi, Yogyakarta, BPPE UGM.
[37] A. M. Andik Adi Suryanto, “Penerapan Metode Mean Absolute Error (Mea) Dalam
Algoritma Regresi Linier Untuk Prediksi Produksi Padi,” Sains dan Teknologi, vol. 11,
2019.