Anda di halaman 1dari 34

LAPORAN TUGAS BESAR

PENGOLAHAN BAHASA ALAMI

“Perbandingan Metode Pre-Processing Menggunakan Steamer dan Lematisasi Pada Model


Rekomendasi Film Berbasis Konten Menggunakan Bag of Word dan Cosine Similarity”

Nama Anggota :

Nazel Marfi Alfawwaz (14116012)


Qisra Lutfi Ranev (14116140)

PROGRAM STUDI TEKNIK INFORMATIKA


JURUSAN TEKNOLOGI, PRODUKSI DAN INDUSTRI
INSTITUT TEKNOLOGI SUMATERA
LAMPUNG SELATAN
2022
DAFTAR ISI

DAFTAR ISI ii
DAFTAR GAMBAR iii
DAFTAR TABEL iv
BAB I PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Rumusan Masalah 2
1.3 Tujuan Penelitian 2
1.4 Batasan Masalah 2
1.5 Manfaat Penelitian 3
1.6 Sistematika Penulisan 3
1.6.1 Bab I Pendahuluan 3
1.6.2 Bab II Teori Singkat 3
1.6.3 Bab III Alur Pengembangan Sistem 3
1.6.4 Bab II Teori Singkat 3
1.6.5 Bab III Alur Pengembangan Sistem 3
BAB II TEORI SINGKAT 4
2.1 Sistem Rekomendasi 4
2.2 Data Pre-Processing 4
2.3 Bag-of-Words 5
2.4 Cosine Similarity 5
BAB III ALUR PENGEMBANGAN SISTEM 8
3.1 Alur Penelitian 8
3.2 Penjabaran Alur Penelitian 8
3.3 Ilustrasi Penerapan Metode 10

ii
3.3.1 Ilustrasi Feature Extraction 10
3.3.2 Ilustrasi Data Preprocessing 10
3.3.3 Ilustrasi Bag Of Word dan Cosine Similarity 13
BAB IV HASIL DAN PEMBAHASAN 16
4.1 Hasil Penelitian 16
4.2 Hasil Evaluasi 19
4.3 Pembahasan 21
BAB V KESIMPULAN DAN SARAN 25
5.1 Kesimpulan 25
5.2 Saran 25
DAFTAR PUSTAKA 26

ii
DAFTAR GAMBAR

Gambar 3.1 Alur Penelitian 12


Gambar 3.2 Rancangan Model 12
Gambar 4.1 Dataset Film 20
Gambar 4.2 Hasil Ekstraksi Fitur 20
Gambar 4.3 Hasil Data Preprocessing 21
Gambar 4.4 Cosine Similarity Stemming 21
Gambar 4.5 Cosine Similarity Lematisasi 22
Gambar 4.6 Hasil Rekomendasi Film 23
Gambar 4.7 Data Validasi 24
Gambar 4.8 Visualisasi Hasil MAE 24
Gambar 4.9 Visualisasi MAE dalam Diagram Batang 25

iii
DAFTAR TABEL

Tabel 3.1 Contoh Case Folding 16


Tabel 3.2 Contoh data cleaning 16
Tabel 3.3 Contoh stopword removal 16
Tabel 3.4 Contoh tokenisasi 17
Tabel 3.5 Stemming 17
Tabel 3.6 Lematisasi 18
Tabel 3.7 Contoh Dokumen 18
Tabel 3.8 Perhitungan Bag Of Word 18
Tabel 3.9 Contoh Data Evaluasi 19
Tabel 3.10 Ilustrasi Perhitungan MAE 20
Tabel 4.1 Hasil Rekomendasi Film Stemming 23
Tabel 4.2 Hasil Rekomendasi Film Lematisasi 24
Tabel 4.3 Perbedaan Nilai MAE 26
Tabel 4.4 Nilai Rata - Rata MAE 26
Tabel 4.4 Hasil Stemming dan Lematisasi Ketiga Indeks 27
Tabel 4.5 Perbedaan Akar Kata 28
Tabel 4.6 Hasil Rekomendasi Stemming dan Lematisasi 29

iv
BAB I
PENDAHULUAN
1.1 Latar Belakang

Pada masa perkembangan teknologi saat ini berbagai upaya dilakukan untuk mendukung
kebutuhan manusia, salah satunya adalah dengan membantu memberikan pilihan yang sesuai
dengan kebutuhan manusia pada berbagai bidang. Bentuk alternatif yang bisa diberikan untuk
menyesuaikan pilihan berdasarkan preferensi pengguna adalah melalui sistem rekomendasi [1].

Sistem rekomendasi dapat diterapkan pada berbagai sektor industri termasuk pada sektor
industri film [2]. Terdapat berbagai metode dalam membangun suatu sistem rekomendasi salah
satunya adalah metode Bag of Word (BoW). Metode BoW sendiri merupakan metode yang
efektif dalam mendapatkan informasi dari suatu korelasi informasi dalam jangkauan yang
panjang [3]. Dengan menggunakan metode ini, suatu data akan direpresentasikan dalam bentuk
vektor dan dapat digunakan dalam melakukan klasifikasi [4-6] maupun membentuk retrivasi
dokumen [7]

Dalam membangun sistem rekomendasi terdapat berbagai metode yang dapat ditempuh
sesuai dengan kondisi dan data yang dimiliki, namun demikian setiap data yang akan diolah
harus melalui tahapan preprocessing terlebih dahulu. Proses preprocessing memiliki tujuan
untuk menyadur informasi yang dibutuhkan dan meninggalkan apa yang tidak dibutuhkan [8-10].
Kendati demikian pre-processing data selalu membawa resiko terhadap data yang diolah [8][11]
[12], sehingga terdapat berbagai metode pemrosesan data yang harus disesuaikan.

Lematisasi dan Stemming merupakan dua buah metode yang dapat digunakan untuk
menormalisasikan data dalam bentuk kata. Stemming merupakan teknik yang telah banyak
digunakan untuk melakukan normalisasi kata, teknik ini akan mengelola imbuhan kata
berdasarkan struktur morfologinya dan mengurangi jumlah kueri indeks secara bersamaan [13-
15]. Stemming sendiri terbukti memberikan hasil yang efektif pada beberapa penelitian terdahulu
[14][16], Stemming juga memberikan hasil yang lebih relevan ketika digunakan untuk dokumen
atau kueri singkat, stemming memberikan hasil non-relevan yang lebih sedikit dari seluruh
dokumen, namun di sisi lain penelitian ini juga membuktikan tingginya ambiguitas dari metode
Stemming karena terdapat overstem yang diterapkan dalam bahasa inggris [16].

1
2

Sebaliknya Lematisasi merupakan salah satu teknik normalisasi lainnya dengan manfaat
yang sama seperti yang dimiliki oleh stemming. Metode ini mengurangi kesalahan ambiguitas
dan menormalisasi berbagai jenis kata terutama pada kelompok kata maupun frasa [13]. Namun
demikian metode ini bergantung pada koleksi data yang ada pada kamus yang dimilikinya.

Pemaparan diatas telah menyebutkan bahwa pada kueri pendek metode Stemming
memberikan hasil yang baik dan lebih relevan untuk beberapa bahasa [17-21], namun pada kasus
berbahasa inggris terdapat overstem dan justru menimbulkan ambiguitas. Sebaliknya metode
Lematisasi dapat mengatasi permasalahan ambiguitas dan overstem tersebut dalam bahasa
inggris, namun efektifitas yang diberikan lebih baik dalam implementasi kueri panjang. Oleh
sebab itu penulis tertarik untuk melakukan penelitian dengan menggunakan kueri pendek
berbahasa inggris dalam membandingkan akurasi yang dihasilkan dari metode Lematisasi dan
Stemming.

1.2 Rumusan Masalah

Berdasarkan latar belakang di atas, rumusan masalah yang ingin diselesaikan dari
penelitian ini yaitu bagaimana tingkat akurasi dari metode preprocessing menggunakan
Stemming dan Lematisasi pada algoritma Bag of Word untuk model rekomendasi film berbahasa
inggris?

1.3 Tujuan Penelitian

Berdasarkan rumusan masalah tersebut, tujuan dari penelitian ini yaitu mengetahui
tingkat akurasi dari metode preprocessing menggunakan Stemming dan Lematisasi pada
algoritma Bag of Word untuk model rekomendasi film berbahasa inggris?

1.4 Batasan Masalah

Berdasarkan tujuan penelitian di atas, penulis menentukan batasan dari penelitian ini
adalah sebagai berikut:
1. Model yang dibentuk hanya dapat menangani judul film dengan batasan dataset sebesar
1000 data.
3

2. Data yang digunakan berbahasa inggris.


3. Data yang digunakan merupakan kueri pendek hasil ekstraksi Bag of Word.
4. Data yang digunakan mencakup karakter a-z.

1.5 Manfaat Penelitian

Adapun manfaat yang diharapkan dari penelitian ini yaitu dapat mengetahui metode pre-
processing data yang lebih efektif dalam memberikan rekomendasi berbahasa inggris untuk kueri
pendek diantara Lematisasi dan Stemming serta diharapkan dapat mendukung kemajuan ilmu
pengetahuan terutama dalam bidang pengolahan bahasa alam.

1.6 Sistematika Penulisan


Sistematika penulisan berisi pembahasan apa yang akan ditulis di setiap Bab. Sistematika
pada umumnya berupa paragraf yang setiap paragraf mencerminkan bahasan setiap Bab.
1.6.1 Bab I Pendahuluan
Bagian ini membahas mengenai latar belakang permasalahan, rumusan masalah, tujuan
penelitian, manfaat penelitian.
1.6.2 Bab II Teori Singkat
Bagian ini membahas mengenai tinjauan pustaka serta landasan teori yang digunakan.
1.6.3 Bab III Alur Pengembangan Sistem
Bagian ini membahas mengenai alur penelitian, penjabaran langkah penelitian, alat dan
bahan, metode pengembangan, ilustrasi perhitungan, dan rancangan pengujian.
1.6.4 Bab II Teori Singkat
Bagian ini membahas mengenai tinjauan pustaka serta landasan teori yang digunakan.
1.6.5 Bab III Alur Pengembangan Sistem
Bagian ini membahas mengenai alur penelitian, penjabaran langkah penelitian, alat dan
bahan, metode pengembangan, ilustrasi perhitungan, dan rancangan pengujian.
BAB II
TEORI SINGKAT
2.1 Sistem Rekomendasi

Sistem rekomendasi adalah sebuah teknik penemuan pengetahuan untuk membuat


rekomendasi yang dipersonalisasi untuk informasi, produk atau layanan. Pertumbuhan informasi
yang besar menimbulkan beberapa tantangan utama bagi sistem pemberi rekomendasi [22].
Sistem rekomendasi dapat melakukan prediksi berbagai macam hal seperti film, musik, buku,
berita dan lain sebagainya yang sesuai dengan preferensi dari pengguna. Sistem ini dapat
berjalan dengan mengumpulkan data dari pengguna secara langsung maupun tidak [23].
Dalam membuat sistem rekomendasi, terdapat dua pendekatan utama yang dapat
digunakan yaitu content based filtering dan collaborative filtering. Content based filtering
memberikan rekomendasi item yang kemungkinan disukai oleh pengguna berdasarkan item lain
yang memiliki karakteristik yang sama. Collaborative filtering merupakan proses penyaringan
atau penilaian item dengan menggunakan informasi dari sumber lain [24].

2.2 Data Pre-Processing

Data Preprocessing adalah bagian penting dari analisis data. Proses ini bertujuan untuk
menghilangkan data yang tidak diinginkan dan berfokus pada data yang lebih penting. Pre-
processing merupakan langkah pertama yang penting dalam melakukan analisis data dimana data
mentah akan diubah menjadi data yang sudah “dibersihkan”, yang berarti variasi yang tidak
diinginkan telah dihapus. Hal ini membuat data yang sudah dibersihkan ini lebih sesuai dengan
tujuan analisis data [25].
Data Pre-processing dapat digunakan untuk menyesuaikan variabilitas dari setiap
variabel yang diukur dan hubungannya agar lebih sesuai dengan tujuan dari analisis data [26].
Pilihan metode atau kombinasi pra-pemrosesan yang optimal metode tergantung pada banyak
sifat yang berbeda dari data dan pada tujuan analisis data. Pilihan ini membutuhkan pemikiran
yang sangat hati-hati: ketika berhadapan dengan kumpulan data besar, dapat berdampak pada
masing-masing langkah pra-pemrosesan data numerik yang tidak transparan. Namun,
kesimpulan yang dapat ditarik harus kuat untuk jenis pra-pemrosesan data yang akan diterapkan
[27].

1
5

2.3 Bag-of-Words

Metodologi Bag-of-words pertama kali diusulkan untuk analisis dokumen teks dan
selanjutnya diadaptasi untuk komputer aplikasi penglihatan. Model diterapkan pada gambar
menggunakan analogi visual dari sebuah kata, yang dibentuk oleh fitur visual kuantisasi vektor
seperti wilayah deskriptor. Untuk menggunakan fitur dari Bag-of-words dari sebuah gambar,
user harus melibatkan langkah-langkah berikut [28]:
1. Secara otomatis mendeteksi wilayah/tempat menarik
2. Menghitung deskriptor lokal atas wilayah/titik tersebut
3. Mengkuantisasi deskriptor menjadi kata-kata untuk membentuk visual kosa kata, dan
4. Menemukan kejadian dalam gambar masing-masing kata khusus dalam kosa kata
untuk membangun BoW fitur (atau histogram frekuensi kata).

Model BoW dapat didefinisikan sebagai berikut. Diberikan sebuah dataset pelatihan D
berisi n gambar yang diwakili oleh D = D1, D2, ..., dan Dn, di mana D adalah fitur visual yang
akan diekstrak, dan juga merupakan algoritma pembelajaran tanpa pengawasan khusus, seperti k-
means, yang digunakan untuk mengelompokkan D berdasarkan jumlah kata visual yang tetap.
Kategori diwakili oleh W = W 1, W2, ..., dan Wv, di mana V adalah nomor cluster. Kemudian, kita
dapat meringkas data dalam tabel konkurensi V ×N jumlah N ij = n(wi, dj), di mana n(wi, dj)
menunjukkan seberapa sering kata wi muncul gambar di [29].

2.4 Cosine Similarity

Cosine Similarity adalah adalah sebuah metrik yang banyak digunakan karena sederhana
dan efektif. yang dapat mengukur kesamaan sebagai sudut antara dua vektor. Ukuran dasar
kesamaan pada Cosine Similarity tidak peka terhadap besaran. Namun, properti ini tidak selalu
menguntungkan. Misalnya, dua pola dengan nilai atribut yang sangat berbeda mungkin memiliki
ukuran kesamaan yang sangat tinggi [30].
Cosine similarity (CS) antara dua vektor x dan y didefinisikan sebagai:

x y
CS ( x , y )=
‖ x ‖‖ y ‖

Dengan x dan y sebagai komponen dari vektor yang diberikan


6

Cosine Similarity memiliki sifat khusus yang membuatnya cocok untuk


metrik pembelajaran: ukuran kesamaan yang dihasilkan selalu berada
dalam kisaran −1 dan +1. Hal ini memungkinkan fungsi tujuan menjadi
lebih sederhana dan efektif [31].

2.5 Stemming
Salah satu algoritma yang digunakan untuk membantu dalam text mining adalah
stemming [32]. Stemming adalah metode yang digunakan untuk menghilangkan imbuhan dari
kata. Stemming adalah salah satu tahapan preprocessing. Hasil dari proses stemming disebut
stem. Penerapan proses stemming pada setiap bahasa berbeda-beda sesuai dengan modalitas
masing-masing bahasa. Jadi tujuan dari proses stemming adalah sama, untuk mendapatkan kata
dasar, dan tetap membutuhkan algoritma yang berbeda untuk setiap bahasa.
Penerapan stemming dalam bahasa inggris lebih mudah sedangkan proses stemming
dalam bahasa indonesia memiliki tingkat kesulitan yang lebih tinggi. Dalam hal ini dikarenakan
morfologi bahasa indonesia yang cukup beranekaragam. pada proses stemming ada dua metode
yaitu dengan berdasarkan kamus dan rule based. Beberapa algoritma yang digunakan seperti
algoritma Nazief dan Adriani, Vega, Arifin dan Setiono dan Porter, setiap algoritma nya
penerapannya berbeda-beda[33].

2.6 Lematisasi ( WordNet )


Lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks
dengan berdasarkan pada bentuk dasar yang merupakan bentuk lemmanya. Normalisasi adalah
mengidentifikasi dan menghapus imbuhan prefiks serta sufiks dari sebuah kata. Dimana, Lema
merupakan bentuk dasar sebuah kata yang memiliki arti tertentu yang berdasarkan pada kamus
[34]. Beberapa proses yang perlu dilakukan dalam algoritma lemmatization yaitu sebagai berikut:
a. Dictionary Lookup
b. Rule Precedence Check
c. Inflectional Suffix Removal
d. Derivational Suffix Removal
e. Derivational Prefix Removal
f. Recoding
7

g. Suffix Backtracking

Algoritma lematisasi memanfaatkan analisis leksikal dan aturan penulisan untuk


memisahkan dan menggabungkan kata yang dapat digunakan sebagai pemeriksaan kebenaran
ejaan berdasarkan 2 aturan PUEBI. Dengan menerapkan algoritma lemmatization, kata-kata
dapat diidentifikasi berdasarkan keakuratan kata dasarnya dan penggunaan afiksnya, jika tidak
ditemukan kata dasar untuk kata yang diperiksa, maka kata tersebut termasuk dalam kategori
kesalahan tipografi atau morfologi [35].

2.7. Mean Absolute Error


Mean Absolute Error (MAE) adalah metode yang digunakan untuk mengukur tingkat
keakuratan model peramalan. Nilai MAE merepresentasikan mean absolute error antara hasil
prediksi atau perkiraan dengan nilai sebenarnya [36]. Rumus MAE dijelaskan sebagai berikut,

1 n
MAE = Σ |f - y |
n i=1 i i

Dimana :
fi : adalah nilai hasil peramalan,
yi : adalah nilai sebenarnya, dan
η : adalah jumlah data.

Berdasarkan rumus 1 di atas, MAE menghitung rata – rata error dengan memberikan
bobot yang sama untuk seluruh data ( i=1 . .. η ¿ secara intuitif. Untuk evaluasi model peramalan,
MAE lebih intuitif dalam memberikan rata – rata error dari keseluruhan data. Dalam kasus ini
pemilihan MAE menjadi tepat karena seluruh data diberikan bobot yang sama [37].
BAB III

ALUR PENGEMBANGAN SISTEM

3.1 Alur Penelitian

Adapun alur penelitian yang akan dilakukan pada penelitian ini terangkum dalam
diagram alir pada Gambar 3.1 berikut.

Gambar 3.1 Alur Penelitian

3.2 Penjabaran Alur Penelitian


Berdasarkan Gambar 3.1, diketahui bahwa terdapat beberapa langkah penelitian dalam
penelitian ini. Adapun penjabaran dari alur penelitian yang akan ditempuh dalam memenuhi
penelitian ini adalah sebagai berikut..

1. Rumusan Masalah
Perumusan masalah adalah proses yang dilakukan untuk mengetahui merumuskan
permasalahan yang telah diidentifikasi sebagai landasan dari tujuan penelitian.

2. Studi Literatur
Studi literatur adalah proses yang bertujuan untuk menemukan penelitian terdahulu yang
berkaitan dengan dengan topik serta teori terkait metode serta hal - hal yang berhubungan dengan
topik.

8
9
10

3. Pengumpulan Data
Proses pengumpulan data dilakukan dengan tujuan mendapatkan data yang akan diolah
pada penelitian. Pengumpulan data pada penelitian dilakukan menggunakan dataset film dari
IMDB. Dataset yang digunakan sebagai data testing ini berupa 1000 judul film.

3. Rancangan Model
Perancangan model merupakan tahapan yang dilakukan dengan tujuan membangun
model rekomendasi berdasarkan metode yang telah ditetapkan. Adapun tahapan dalam
perancangan model adalah sebagai berikut.

Gambar 3.2 Rancangan Model

Pada Gambar 3.2 di atas dapat dilihat bahwa pada awal perancangan model melalui tahap
feature extraction yaitu tahapan untuk mengambil kolom tabel yang penting seperti judul, genre,
deskripsi, casting, dan director. Kemudian selanjutnya tahap pemrosesan data. Tahapan ini
dimulai dengan case folding yaitu mengubah seluruh huruf dari data ke dalam huruf kecil.
Selanjutnya adalah data cleaning atau pembersihan data dari partikel yang tidak dibutuhkan.
Kemudian dilanjutkan dengan tahapan stopword removal atau menghilangkan kata-kata yang
tidak memiliki makna dan tidak memberikan pengaruh dalam penilaian atau evaluasi. Tahap
berikutnya adalah tokenisasi atau mengubah kalimat kedalam bentuk token kata. Setelah tahap
11

tokenisasi selesai, kemudian dilakukan dua tahapan yaitu stemming atau menghapus imbuhan
pada kata dan mengembalikannya kepada akar kata sesuai dengan aturan morfologi dan
lematisasi yaitu mengembalikan kata berdasarkan kamus data.
Data yang telah melalui tahap preprocessing akan digunakan untuk membangun
pemodelan rekomendasi berdasarkan Bag Of Word menggunakan stemmer dan lematisasi.
Kemudian akan dicari cosine matrix nya. Yang nanti nya hasil akhir dari kedua metode ini akan
digunakan untuk evaluasi pada tahap berikutnya. Pada tahap evaluasi, hasil dari perancangan
model akan dibandingkan menggunakan Mean Absolute Error (MAE) untuk mencari metode
terbaik dari kedua pemrosesan data tersebut.

4. Evaluasi
Tahapan ini akan mengevaluasi hasil dari perancangan sistem dengan menggunakan
metode evaluasi Mean Absolute Error (MAE). MAE adalah penilaian secara linear, yang berarti
semua perbedaan dari setiap individu mempunyai bobot yang sama dalam rata-rata.

5. Pembahasan
Pembahasan merupakan tahapan yang ditempuh untuk membahas hasil dari rancangan
model dan evaluasi serta melihat capaian dari penelitian.

3.3 Ilustrasi Penerapan Metode


Ilustrasi penerapan metode akan dijelaskan melalui pembahasan contoh setiap tahapan
penelitian sebagai berikut.
3.3.1 Ilustrasi Feature Extraction
Tahap feature extraction yaitu tahapan untuk mengambil kolom tabel yang penting
seperti judul, genre, deskripsi, casting, dan director.

3.3.2 Ilustrasi Data Preprocessing


Sesuai dengan alur penelitian, data preprocessing terdiri dari beberapa tahapan. Pada
ilustrasi ini akan dibahas setiap tahapan beserta contoh penerapannya.
12

1. Case Folding
Case Folding merupakan tahapan untuk mengonversi seluruh teks menjadi huruf kecil,
tahapan ini akan mengganti seluruh huruf kapital dengan tujuan untuk konsistensi data.

Tabel 3.1 Contoh Case Folding

Input Output
There are a number of Marvel films showing in 2022 there are a number of marvel films showing in 2022
such as, Thor Love and Thunder, Black, Panther : such as, thor love and thunder, black panther wakanda
Wakanda Forever and She Hulk. forever and she hulk.

2. Data Cleaning
Data Cleaning merupakan tahapan untuk menghilangkan tanda baca dari berita karena
tidak mempengaruhi informasi yang dimuat oleh dokumen.

Tabel 3.2 Contoh data cleaning

Input Output
there are a number of marvel films showing in such as, there are a number of marvel films showing in such as
thor love and thunder, black panther : wakanda forever thor love and thunder black panther wakanda forever and
and she hulk. she hulk

3. Stopword Removal
Tahapan yang dilakukan untuk menghapus kata-kata yang dianggap tidak penting atau
tidak mewakili suatu dokumen.

Tabel 3.3 Contoh stopword removal

Input Output
there are a number of marvel films showing in such as number marvel films showing thor love thunder black
thor love and thunder black panther wakanda forever panther wakanda forever hulk
and she hulk

4. Tokenisasi
Tahapan tokenisasi merupakan tahap yang dilakukan untuk memisahkan setiap kata
dalam kalimat menjadi token kata.
13

Tabel 3.4 Contoh tokenisasi

Input Output
number marvel films showing thor love thunder black ['number', 'marvel', 'films', 'showing', 'thor', 'love',
panther wakanda forever hulk 'thunder', 'black', 'panther', 'wakanda', 'forever', 'hulk']

5. Stemming
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.5 Stemming

Input Output
['number', 'marvel', 'films', 'showing', 'thor', 'love', [‘number’, ‘marvel’, ‘film’, ‘show’, ‘thor’ , ‘love’,
'thunder', 'black', 'panther', 'wakanda', 'forever', 'hulk'] ‘thunder’, ‘black’, ‘panther’, ‘wakanda’ ‘forev’, ‘hulk’]

6. Lematisasi
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.6 Lematisasi

Input Output
[‘there’, ‘ are’, ‘a’, ‘number’, ‘of’, ‘marvel’, ‘films’, [‘number’, ‘marvel’, ‘film’, ‘show’, ‘thor’ , ‘love’,
‘showing’, ‘in’ , ‘2022’, ‘such’ , ‘as’ , ‘thor’, ‘love’, ‘thunder’, ‘black’, ‘panther’, ‘wakanda’ ‘forever’,
‘and’, ‘thunder’, ‘black’, ‘panther’, ‘wakanda’, ‘hulk’]
‘forever’’, ‘dan’, ‘she’, ‘hulk’]
14

3.3.3 Ilustrasi Bag Of Word dan Cosine Similarity


Berikut ini merupakan ilustrasi perhitungan untuk menentukan kesamaan dari dokumen
menggunakan bag of word dan Cosine Similarity.

1. Ilustrasi Perhitungan pada Bag Of Word dan Cosine Similarity


Perhitungan dilakukan dengan mencari sebaran kata dari 2 dokumen contoh yang tertera
pada Tabel 3.8 sebagai berikut:

Tabel 3.7 Contoh Dokumen

Dokumen Deskripsi

D1 children film with cheerful and fun theme

D2 superhero fighting film that children admire

Adapun Ilustrasi perhitungan Bag Of Word dapat dilihat pada Tabel 3.8 sebagai berikut.

Tabel 3.8 Perhitungan Bag Of Word

Frekuensi
Term D1 x D2 D 12 D 22
D1 D2

children 1 1 1 1 1

film 1 1 1 1 1

with 1 0 0 1 0

cheerfull 1 0 0 1 0

and 1 0 0 1 0

fun 1 0 0 1 0

theme 1 0 0 1 0

superhero 0 1 0 0 1

fighting 0 1 0 0 1
15

Frekuensi
Term D1 x D2 D1
2
D2
2

D1 D2

that 0 1 0 0 1

admire 0 1 0 0 1

Jumlah 2 7 6

Akar √ 7=2.64 √ 6=2.44


Cosine similarity 2 0.31
2.64 x 2.44

2. Ilustrasi Perhitungan pada Evaluasi :


Perhitungan evaluasi dilakukan menggunakan MAE untuk membandingkan stemming
dan lematisasi. Ilustrasi perhitungan dilakukan menggunakan 5 dokumen dengan setiap
dokumen memiliki 3 data prediksi dan 3 data sebenarnya sehingga jumlah data hasil
prediksi dan hasil sebenarnya adalah 15 data. Adapun ilustrasi perhitungan evaluasi
adalah sebagai berikut.

Tabel 3.9 Contoh Data Evaluasi

Hasil Prediksi Cosine


Hasil Prediksi Cosine
Similarity
Similarity menggunakan Hasil Sebenarnya
Doku menggunakan
lematisasi
men stemming

R1 R2 R3 R1 R2 R3 R1 R2 R3

D1 D2 D4 D5 D1 D4 D2 D2 D3 D4

D2 D5 D3 D1 D5 D2 D4 D4 D5 D1

D3 D2 D3 D2 D2 D1 D4 D1 D5 D2

D4 D4 D3 D5 D2 D5 D3 D1 D5 D3
16

Hasil Prediksi Cosine


Hasil Prediksi Cosine
Similarity
Similarity menggunakan Hasil Sebenarnya
Doku menggunakan
lematisasi
men stemming

R1 R2 R3 R1 R2 R3 R1 R2 R3

D5 D1 D2 D5 D2 D4 D5 D4 D1 D2

Dari tabel tersebut selanjutnya dilakukan perhitungan nilai MAE dilakukan


menggunakan seperti yang dijelaskan pada Tabel 3.10 sebagai berikut :

Tabel 3.10 Ilustrasi Perhitungan MAE

Error Satuan Mutlak


Metode Jumlah
D1 D2 D3 D4 D5

Stemming 1 1 2 1 1 6

Lematisasi 1 1 1 1 1 5

MAE Menggunakan Stemming 6/5 1.8

MAE Menggunakan Lematisasi 5/5 1.0


BAB IV

HASIL DAN PEMBAHASAN

4.1 Hasil Penelitian


Penelitian ini menggunakan dataset film sebanyak 1000 data film yang diambil dari situs
penilaian film yaitu IMDb. Dataset penelitian dapat dilihat pada gambar 4.1 berikut :

Gambar 4.1 Dataset Film

Setelah itu akan dilakukan ekstraksi fitur yang akan digunakan dalam penelitian ini. Fitur
yang digunakan adalah series title, overview, genre, director, dan actor. Ekstraksi fitur dapat
dilihat pada gambar 4.2

Gambar 4.2 Hasil Ekstraksi Fitur

16
18

Hasil ekstraksi fitur pada gambar 4.2 akan dilakukan data preprocessing seperti data
cleaning, stopword removal, case folding, stemming, dan lematisasi. Hasil preprocessing dapat
dilihat pada gambar 4.3

Gambar 4.3 Hasil Data Preprocessing

Setelah itu akan dilakukan vektorisasi menggunakan Bag of Word agar dapat membentuk
model rekomendasi berdasarkan kemiripan Cosine dari metode Stemming dan Lematisas. Hasil
rekomendasi tersebut dipetakan dalam diagram heatmap untuk kedua metodenya. Heatmap
Cosine Similarity untuk Stemming dapat dilihat pada gambar 4.4.

Gambar 4.4 Heatmap Cosine Similarity menggunakan Stemming


19

Heatmap untuk Model Cosine Similarity menggunakan Lematisasi dapat dilihat pada gambar
4.5.

Gambar 4.5 Heatmap Cosine Similarity menggunakan Lematisasi

Contoh dari hasil rekomendasi film untuk kedua metode Stemming dan lematisasi dapat dilihat
pada tabel 4.1

Tabel 4.1 Hasil Rekomendasi Film menggunakan Stemming dan Lematisasi

Judul Film : The Godfather

Hasil Rekomendasi

No Stemming Lematisasi

1 The Godfather: Part III The Godfather: Part III

2 The Godfather: Part II The Godfather: Part II

3 Do lok tin si Do lok tin si

4 Les quatre cents coups Les quatre cents coups

5 Du rififi chez les hommes Du rififi chez les hommes


20

Berdasarkan hasil rekomendasi film untuk judul “The Godfather” menghasilkan


rekomendasi film yang sama untuk 5 teratas baik untuk Stemming maupun Lematisasi. Untuk
hasil seluruh rekomendasi film dapat dilihat pada gambar 4.6

Gambar 4.6 Hasil Rekomendasi Film

4.2 Hasil Evaluasi


Hasil evaluasi yang digunakan dalam penelitian ini menggunakan data validasi sebanyak
50 data rekomendasi film yang dibuat secara manual berdasarkan data rekomendasi film dari
website IMDb. Data validasi dapat dilihat pada gambar 4.7

Gambar 4.7 Data Validasi


21

Hasil evaluasi untuk sistem rekomendasi film menggunakan Mean Absolute Error
(MAE). Hasil MAE dapat dilihat pada gambar 4.8.

Gambar 4.8 Visualisasi Hasil MAE

Berdasarkan visualisasi pada gambar 4.8 dapat dilihat bahwa hasil MAE untuk Stemming
dan Lematisasi hampir sama, akan tetapi terdapat sampel nilai MAE yang berbeda. Untuk lebih
jelasnya dapat dilihat pada gambar 4.9.

Gambar 4.9 Visualisasi MAE dalam Diagram Batang

Berdasarkan gambar 4.9 terdapat nilai sampel MAE yang berbeda yaitu nilai sampel pada
indeks 10, 32, dan 36. Hasil ketiga nilai sampel tersebut dapat dilihat pada tabel 4.2

Tabel 4.2 Perbedaan Nilai MAE

No. MAE Stemming MAE Lematisasi


22

10 2 3

32 2 3

36 5 5

Berdasarkan perbedaan dari ketiga sampel diatas memberikan hasil bahwa nilai error
yang diberikan oleh hasil Stemming lebih kecil dari hasil Lematisasi. Nilai error hasil Stemming
dan lematisasi dapat dilihat pada tabel 4.3

Tabel 4.3 Nilai Rata - Rata MAE

Nilai Rata-Rata MAE

Nilai MAE Stemming 4.34

Nilai MAE Lematisasi 4.36

4.3 Pembahasan
Berdasarkan hasil evaluasi, terdapat nilai MAE yang berbeda berdasarkan Stemming dan
Lematisasi. Nilai MAE yang berbeda terdapat pada nilai indeks ke 10, 32, dan 36. Untuk melihat
perbedaanya pertama dapat dilihat hasil Stemming dan Lematisasi untuk ketiga indeks tersebut.
Hasil Stemming dan Lematisasi ketiga indeks dapat dilihat pada tabel 4.4

Tabel 4.4 Hasil Stemming dan Lematisasi Ketiga Indeks

Indeks Judul film Bag of Word Bag of Word


Stemming Lematisasi

10 The Lord of the meek hobbit shire meek hobbit shire


Rings: The eight companion set eight companion set
Fellowship of the journey destroy journey destroy
Ring power one ring save powerful one ring
middleearth dark lord save middleearth dark
sauron meek hobbit lord sauron meek
shire eight hobbit shire eight

Indeks Judul film Bag of Word Bag of Word


Stemming Lematisasi
23

companion set companion set


journey destroy journey destroy
power one ring save powerful one ring
middleearth dark lord save middleearth dark
sauron action lord sauron action
adventur drama peter adventure drama
jackson elijah wood peter jackson elijah
ian mckellen orlando wood ian mckellen
bloom sean bean orlando bloom sean
bean

32 Avengers: Endgame devast event aveng devastate events


infin war univers ruin avengers infinity war
help remain alli aveng universe ruin help
assembl order revers remain ally avengers
thano action restor assemble order
balanc univers devast reverse thanos action
event aveng infin war restore balance
univers ruin help universe devastate
remain alli aveng events avengers
assembl order revers infinity war universe
thano action restor ruin help remain ally
balanc univers action avengers assemble
adventur drama order reverse thanos
anthoni russo joe action restore balance
russo robert downey universe action
jr chri evan mark adventure drama
ruffalo anthony russo joe
russo robert downey
jr chris evans mark
ruffalo

36 Rear Window wheelchairbound wheelchairbound


photograph spi photographer spy
neighbor apart neighbor apartment
window becom window become
convinc one commit convince one commit
murder murder
wheelchairbound wheelchairbound
photograph spi photographer spy
neighbor apart neighbor apartment
window becom window become
convinc one commit convince one commit

Indeks Judul film Bag of Word Bag of Word


Stemming Lematisasi
24

murder mysteri murder mystery


thriller alfr hitchcock thriller alfred
jame stewart grace hitchcock jam stewart
kelli wendel corey grace kelly wendell
thelma ritter corey thelma ritter

Berdasarkan tabel 4.5 terdapat hasil yang berbeda ketika mengubah kata menjadi akar
kata menggunakan Stemming dan Lematisasi. Kata yang berbeda tersebut dapat dilihat pada tabel
4.6

Tabel 4.5 Perbedaan Akar Kata

Indeks Bag of Word Stemming Bag of Word Lematisasi

10 1. power 1. powerful
2. adventur 2. adventure

32 1. aveng 1. avengers
2. infin 2. infinity
3. alli 3. ally
4. assembl 4. assemble
5. revers 5. reverse
6. thano 6. thanos
7. restor 7. restore
8. balanc 8. balance
9. univers 9. universe
10. devast 10. devastate
11. anthoni 11. anthony

36 1. spi 1. spy
2. apart 2. apartment
3. becom 3. become
4. convinc 4. convince
5. kelli 5. kelly

Berdasarkan tabel 4.6 hasil rekomendasi yang dihasilkan Stemming dan Lematisasi dapat
dilihat pada tabel 4.7
25

Tabel 4.6 Hasil Rekomendasi Stemming dan Lematisasi

Indeks Stemming Lematisasi Data Aktual

10 [5, 226, 13, 618, 169] [5, 226, 618, 162, 267] [5, 10, 14, 618, 16]

32 [60, 583, 737, 705, 339] [60, 583, 705, 339, 179] [60, 357, 583, 473, 737]

36 [876, 162, 22, 693, 321] [162, 22, 693, 321, 187] [119, 49, 118, 187, 50 ]

Berdasarkan dari hasil pengujian yang telah dilakukan dihasilkan bahwa nilai MAE pada
stemming lebih kecil dari nilai MAE pada lematisasi yang mengartikan bahwa teks pre-
prosesing menggunakan stemming lebih baik dibandingkan dengan menggunakan lematisasi. Hal
ini disebabkan karena pada saat menggunakan metode Stemming kata berimbuhan akan
dikembalikan pada akar kata, sehingga memungkinkan kata tersebut tersebar pada berbagai
dokumen.
Pada metode Bag of Word frekuensi sebaran kata akan mempengaruhi nilai bobot dari
setiap dokumen, oleh sebab itu kemungkinan mendapatkan nilai kemiripan Cosine yang lebih
besar juga semakin meningkat. Berbeda dengan metode Lematisasi yang melihat lema sesuai
dengan kamus, kata tidak akan dikembalikan ke akar kata melainkan diujikan berdasarkan kamus
lema yang dimiliki (dalam penelitian ini menggunakan WordNet), oleh sebab itu beberapa kata
dengan akar makna yang sama tetap dikategorikan sebagai indeks yang berbeda dan
membedakan frekuensinya pada pembobotan Bag of Word.
Sebagai contoh : Menggunakan kata yang terdapat pada tabel 4.7, yakni : “power”. Hasil
pencarian akan menemukan pada index ke-10 jika menggunakan stemming. Namun tidak akan
ditemukan pada index ke-10 jika menggunakan lematisasi karena, pada metode lematisasi hanya
akan melakukan pencarian pada kata “powerful”. Oleh karena itu, hasil yang didapatkan oleh
stemming akan memberikan jangkauan hasil yang lebih banyak jika dibandingkan dengan
lematisasi. Hal ini akan memperbesar kemungkinan dokumen yang diperoleh dari metode
lematisasi mendapatkan hasil yang lebih relevan. Oleh sebab itu pula nilai error atau MAE yang
didapatkan oleh lematisasi menjadi lebih besar.
26

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil penelitian yang telah dilakukan menggunakan 50 data pengujian,


diperoleh perbedaan/selisih antara hasil MAE lematisasi dan MAE stemming sebesar 0.02,
dengan nilai error yang didapatkan menggunakan MAE pada stemming diperoleh : 4,34 dan 4,36
pada lematisasi. Oleh karena itu metode stemming mendapatkan nilai akurasi yang lebih besar
dibandingkan stemming. Perbedaan ini menyimpulkan bahwa menggunakan metode Bag of
Word metode stemming memberikan hasil yang lebih baik dibandingkan dengan lematisasi pada
kueri pendek berbahasa inggris.

5.2 Saran

Hasil dari penelitian sangat bergantung dari dataset yang digunakan, untuk memperoleh
selisih yang lebih besar dan signifikan, disarankan menggunakan volume data yang lebih besar
dalam evaluasi. Selain itu penelitian berikutnya dapat membandingkan kedua metode
normalisasi ini menggunakan algoritma dan kamus yang berbeda untuk memperoleh hasil yang
lebih baik dalam membangun model rekomendasi.

25
DAFTAR PUSTAKA

[1] R. Oktora and W. Susanty, “Perancangan aplikasi e-commerce Dengan Sistem


Rekomendasi Item-based collaborative filtering,” EXPERT: Jurnal Manajemen Sistem
Informasi dan Teknologi, vol. 3, no. 1, 2013.

[2] M. K. P. Hidayat, “Model Sistem Informasi Toko Film Digital Dengan Recommender
System,” p. 3, 2013.

[3] S. Deerwester, S. Dumais, G. Furnas, T. Landauer, and R.Harshman, “Indexing by


latent semantic analy-sis,” Journal of American Society of Information Sciences, 1990.

[4] D. Blei, A. Ng, and M. Jordan, “Latent Dirichlet Allo-cation,” Journal of Machine
Learning Research, pp. 993–1022, 2003.

[5] T. L. Griffiths and M. Steyvers, A road to meaning. Lau-rence Erlbaum, 2007, ch.
Probabilistic topic models.

[6] T. Hoffman, “Probabilistic latent semantic analysis,”in Proceedings of Uncertainty in


Artificial Intelligence, 1999.

[7] X. Wei and W. B. Croft, “LDA-based document models for ad-hoc retrieval,” in
Proceedings of ACM SIGIR, 2006.

[8] J. Engel, et al., Breaking with trends in pre-processing? Trac. Trends Anal.Chem. 50
(2013) 96e106.

[9] Å. Rinnan, F.v.d. Berg, S.B. Engelsen, Review of the most common pre-processing
techniques for near-infrared spectra, Trac. Trends Anal. Chem. 28 (10) (2009)
1201e1222.

[10] L.C. Lee, C.Y. Liong, A.A. Jemain, A contemporary review on Data Preprocessing
(DP) practice strategy in ATR-FTIR spectrum, Chemometr. Intell. Lab. Syst. 163
(2017) 64e75

[11] P. Oliveri, et al., The impact of signal pre-processing on the final interpretation of
analytical outcomes e a tutorial, Anal. Chim. Acta 1058 (2019) 9e17.

[12] J. Gerretzen, et al., Simple and effective way for data preprocessing selection based on
design of Experiments, Anal. Chem. 87 (24) (2015) 12096e12103.

[13] Alkula, R. From plain character strings to meaningful words: Producing better full text
databases for inflectional and compounding languages with morphological analysis

26
27

software. Information Retrieval, 4, (2001), 195-208.

[14] Krovetz, R. Viewing morphology as an inference process. Proceedings of the Sixteenth


Annual International ACM/SIGIR Conference on Research and Development in
Information Retrieval (SIGIR’93) (Pittsburg, PA, 27 June - 1 July 1993). ACM Press,
New York, NY, 1993, 191-202.

[15] Pirkola, A. Morphological typology of languages for information retrieval. Journal of


Documentation, 57, 3 (2001), 330-348

[16] Hull, D. Stemming algorithms: a case study for detailed evaluation. Journal of the
American Society for Information Science, 47, 1 (1996), 70-84

[17] Popovic, M., and Willett, P. The effectiveness of stemming for natural-language access
to Slovene textual data. Journal of the American Society for Information Science, 43, 1
(1992), 384-390.

[18] Savoy, J. A stemming procedure and stopword list for general French corpora. Journal
of the American Society for Information Science, 50, 10 (1999), 944-952.

[19] Kalamboukis, T. Z. Suffix stripping with modern Greek. Program, 29, 3 (1995), 313-
321.

[20] Abu-Salem, H., Al-Omari, M., and Evens, M. W. Stemming methodologies over
individual query words for an Arabic information retrieval system. Journal of the
American Society for Information Science, 50, 6 (1999), 524-529.

[21] Rosell, M. Improving clustering of Swedish newspaper articles using stemming and
compound splitting. In Fourteenth Nordic Conference on Computational Linguistics
(NoDaLiDa 2003) (Reykjavik, Island, May 30-31, 2003)

[22] B. Sarwar, G. Karypis, and J. Konstan, “Item-Based Collaborative Filtering


Recommendation,” GroupLens Res. Group/Army HPC Res. Cent. Dep. Comput. Sci.
Eng., pp. 286–295, 2001.

[23] F. W. M. Fadlil, “Pembuatan Aplikasi Rekomendasi Menggunakan Decision Tree dan


Clustering,” vol. 3, no. Kursor, pp. 45–46, 2007.

[24] L. Dzumiroh and R. Saptono, “Penerapan Metode Collaborative Filtering Menggunakan


Rating Implisit pada Sistem Rekomendasi Pemilihan Film di Rental VCD,” J. Teknol.
Inf. ITSmart, vol. 1, no. 2, p. 54, 2016, doi: 10.20961/its.v1i2.590.

[25] R. A. van den Berg, H. C. J. Hoefsloot, J. A. Westerhuis, A. K. Smilde, and M. J. van


der Werf, “Centering, scaling, and transformations: Improving the biological
28

information content of metabolomics data,” BMC Genomics, vol. 7, pp. 1–15, 2006, doi:
10.1186/1471-2164-7-142.

[26] J. Forshed, I. Schuppe-Koistinen, and S. P. Jacobsson, “Peak alignment of NMR signals


by means of a genetic algorithm,” Anal. Chim. Acta, vol. 487, no. 2, pp. 189–199, 2003,
doi: 10.1016/S0003-2670(03)00570-1.

[27] A. Bosch, X. Muñoz, and R. Martí, “Which is the best way to organize/classify images
by content?,” Image Vis. Comput., vol. 25, no. 6, pp. 778–791, 2007, doi:
10.1016/j.imavis.2006.07.015.

[28] C.-F. Tsai, “Bag-of-Words Representation in Image Annotation: A Review,” ISRN


Artif. Intell., vol. 2012, pp. 1–19, 2012, doi: 10.5402/2012/376804.

[29] P. Xia, L. Zhang, and F. Li, “Learning similarity with cosine similarity ensemble,” Inf.
Sci. (Ny)., vol. 307, pp. 39–52, 2015, doi: 10.1016/j.ins.2015.02.024.

[30] H. V. Nguyen and L. Bai, “Cosine similarity metric learning for face verification,” Lect.
Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes
Bioinformatics), vol. 6493 LNCS, no. PART 2, pp. 709–720, 2011, doi: 10.1007/978-3-
642-19309-5_55.

[31] Al Ajeeli, A. T. (2016). An Intelligent Framework for Natural Language Stems


Processing. Global Journal of Computer Science and Technology, 16 (1), 22 - 38

[32] A. A. Margiyanti, “Analisis Pengembangan Algoritma Porter Stemming Dalam Bahasa


Indonesia,” Sekolah Tinggi Elektronika dan Komputer PAT.

[33] Suhartono, Derwin., 2014. Lemmatization Technique in Bahasa: Indonesian Language


(JOURNAL OF SOFTWARE, VOL.9, NO.5).

[34] C.-F. Tsai, “Bag-of-Words Representation in Image Annotation: A Review,” ISRN


Artif. Intell., vol. 2012, pp. 1–19, 2012, doi: 10.5402/2012/376804.

[35] J. P. R. D. YUSUP MIFTAHUDDIN, “Penerapan Algoritma Lemmatization pada


Dokumen Bahasa Indonesia,” MIND Journal, vol. 3, pp. 47-56, 2018.

[36] Subagyo, Pangestu, 1986, Forecasting Konsep dan Aplikasi, Yogyakarta, BPPE UGM.

[37] A. M. Andik Adi Suryanto, “Penerapan Metode Mean Absolute Error (Mea) Dalam
Algoritma Regresi Linier Untuk Prediksi Produksi Padi,” Sains dan Teknologi, vol. 11,
2019.

Anda mungkin juga menyukai