Laporan NLP 123

LAPORAN TUGAS BESAR
PENGOLAHAN BAHASA ALAMI
“Perbandingan Metode Pre-Processing Menggunakan Steamer dan Lematisasi Pada Model

Rekomendasi Musik Berbasis Genre Menggunakan Bag of Word dan Cosine Similarity”
Nama Anggota :
Nazel Marfi Alfawwaz (14116012)

Qisra Lutfi Ranev (14116140)
PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNOLOGI, PRODUKSI DAN INDUSTRI
INSTITUT TEKNOLOGI SUMATERA
LAMPUNG SELATAN
2022
DAFTAR ISI
DAFTAR ISI ii
DAFTAR GAMBAR iii
DAFTAR TABEL iv
BAB I PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Rumusan Masalah 2
1.3 Tujuan Penelitian 2
1.4 Batasan Masalah 2
1.5 Manfaat Penelitian 3
1.6 Sistematika Penulisan 3
1.6.1 Bab I Pendahuluan 3
1.6.2 Bab II Teori Singkat 3
1.6.3 Bab III Alur Pengembangan Sistem 3
1.6.4 Bab II Teori Singkat 3
1.6.5 Bab III Alur Pengembangan Sistem 3
BAB II TEORI SINGKAT 4
2.1 Sistem Rekomendasi 4
2.2 Data Pre-Processing 4
2.3 Bag-of-Words 5
2.4 Cosine Similarity 5
BAB III ALUR PENGEMBANGAN SISTEM 8
3.1 Alur Penelitian 8
3.2 Penjabaran Alur Penelitian 8
3.3 Ilustrasi Penerapan Metode 10
ii
3.3.1 Ilustrasi Feature Extraction 10
3.3.2 Ilustrasi Data Preprocessing 10
3.3.3 Ilustrasi Bag Of Word dan Cosine Similarity 13
BAB IV HASIL DAN PEMBAHASAN 16
4.1 Hasil Penelitian 16
4.2 Hasil Evaluasi 19
4.3 Pembahasan 21
BAB V KESIMPULAN DAN SARAN 25
5.1 Kesimpulan 25
5.2 Saran 25
DAFTAR PUSTAKA 26
ii
DAFTAR GAMBAR
Gambar 3.1 Alur Penelitian 12

Gambar 3.2 Rancangan Model 12
Gambar 4.1 Dataset Musik 20
Gambar 4.2 Hasil Ekstraksi Fitur 20
Gambar 4.3 Hasil Data Preprocessing 21
Gambar 4.4 Cosine Similarity Stemming 21
Gambar 4.5 Cosine Similarity Lematisasi 22
Gambar 4.6 Hasil Rekomendasi Musik 23
Gambar 4.7 Data Validasi 24
Gambar 4.8 Visualisasi Hasil MAE 24
Gambar 4.9 Visualisasi MAE dalam Diagram Batang 25
iii
DAFTAR TABEL
Tabel 3.1 Contoh Case Folding 16

Tabel 3.2 Contoh data cleaning 16
Tabel 3.3 Contoh stopword removal 16
Tabel 3.4 Contoh tokenisasi 17
Tabel 3.5 Stemming 17
Tabel 3.6 Lematisasi 18
Tabel 3.7 Contoh Dokumen 18
Tabel 3.8 Perhitungan Bag Of Word 18
Tabel 3.9 Contoh Data Evaluasi 19
Tabel 3.10 Ilustrasi Perhitungan MAE 20
Tabel 4.1 Hasil Rekomendasi Musik Stemming 23
Tabel 4.2 Hasil Rekomendasi Musik Lematisasi 24
Tabel 4.3 Perbedaan Nilai MAE 26
Tabel 4.4 Nilai Rata - Rata MAE 26
Tabel 4.4 Hasil Stemming dan Lematisasi Ketiga Indeks 27
Tabel 4.5 Perbedaan Akar Kata 28
Tabel 4.6 Hasil Rekomendasi Stemming dan Lematisasi 29
iv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Pada masa perkembangan teknologi saat ini berbagai upaya dilakukan untuk mendukung
kebutuhan manusia, salah satunya adalah dengan membantu memberikan pilihan yang sesuai
dengan kebutuhan manusia pada berbagai bidang. Bentuk alternatif yang bisa diberikan untuk
menyesuaikan pilihan berdasarkan preferensi pengguna adalah melalui sistem rekomendasi [1].
Sistem rekomendasi dapat diterapkan pada berbagai sektor industri termasuk pada sektor
industri musik [2]. Terdapat berbagai metode dalam membangun suatu sistem rekomendasi salah
satunya adalah metode Bag of Word (BoW). Metode BoW sendiri merupakan metode yang
efektif dalam mendapatkan informasi dari suatu korelasi informasi dalam jangkauan yang
panjang [3]. Dengan menggunakan metode ini, suatu data akan direpresentasikan dalam bentuk
vektor dan dapat digunakan dalam melakukan klasifikasi [4-6] maupun membentuk retrivasi
dokumen [7]
Dalam membangun sistem rekomendasi terdapat berbagai metode yang dapat ditempuh
sesuai dengan kondisi dan data yang dimiliki, namun demikian setiap data yang akan diolah
harus melalui tahapan preprocessing terlebih dahulu. Proses preprocessing memiliki tujuan
untuk menyadur informasi yang dibutuhkan dan meninggalkan apa yang tidak dibutuhkan [8-10].
Kendati demikian pre-processing data selalu membawa resiko terhadap data yang diolah [8][11]
[12], sehingga terdapat berbagai metode pemrosesan data yang harus disesuaikan.
Lematisasi dan Stemming merupakan dua buah metode yang dapat digunakan untuk
menormalisasikan data dalam bentuk kata. Stemming merupakan teknik yang telah banyak
digunakan untuk melakukan normalisasi kata, teknik ini akan mengelola imbuhan kata
berdasarkan struktur morfologinya dan mengurangi jumlah kueri indeks secara bersamaan [13-
15]. Stemming sendiri terbukti memberikan hasil yang efektif pada beberapa penelitian terdahulu
[14][16], Stemming juga memberikan hasil yang lebih relevan ketika digunakan untuk dokumen
atau kueri singkat, stemming memberikan hasil non-relevan yang lebih sedikit dari seluruh
dokumen, namun di sisi lain penelitian ini juga membuktikan tingginya ambiguitas dari metode
Stemming karena terdapat overstem yang diterapkan dalam bahasa inggris [16].
1
2
Sebaliknya Lematisasi merupakan salah satu teknik normalisasi lainnya dengan manfaat
yang sama seperti yang dimiliki oleh stemming. Metode ini mengurangi kesalahan ambiguitas
dan menormalisasi berbagai jenis kata terutama pada kelompok kata maupun frasa [13]. Namun
demikian metode ini bergantung pada koleksi data yang ada pada kamus yang dimilikinya.
Pemaparan diatas telah menyebutkan bahwa pada kueri pendek metode Stemming
memberikan hasil yang baik dan lebih relevan untuk beberapa bahasa [17-21], namun pada kasus
berbahasa inggris terdapat overstem dan justru menimbulkan ambiguitas. Sebaliknya metode
Lematisasi dapat mengatasi permasalahan ambiguitas dan overstem tersebut dalam bahasa
inggris, namun efektifitas yang diberikan lebih baik dalam implementasi kueri panjang. Oleh
sebab itu penulis tertarik untuk melakukan penelitian dengan menggunakan kueri pendek
berbahasa inggris dalam membandingkan akurasi yang dihasilkan dari metode Lematisasi dan
Stemming.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan masalah yang ingin diselesaikan dari
penelitian ini yaitu bagaimana tingkat akurasi dari metode preprocessing menggunakan
Stemming dan Lematisasi pada algoritma Bag of Word untuk model rekomendasi musik
berbahasa inggris?
1.3 Tujuan Penelitian
Berdasarkan rumusan masalah tersebut, tujuan dari penelitian ini yaitu mengetahui
tingkat akurasi dari metode preprocessing menggunakan Stemming dan Lematisasi pada
algoritma Bag of Word untuk model rekomendasi musik berbahasa inggris?
1.4 Batasan Masalah
Berdasarkan tujuan penelitian di atas, penulis menentukan batasan dari penelitian ini
adalah sebagai berikut:
1. Model yang dibentuk hanya dapat menangani judul musik dengan batasan dataset sebesar
1000 data.
3
2. Data yang digunakan berbahasa inggris.

3. Data yang digunakan merupakan kueri pendek hasil ekstraksi Bag of Word.
4. Data yang digunakan mencakup karakter a-z.
1.5 Manfaat Penelitian
Adapun manfaat yang diharapkan dari penelitian ini yaitu dapat mengetahui metode pre-
processing data yang lebih efektif dalam memberikan rekomendasi berbahasa inggris untuk kueri
pendek diantara Lematisasi dan Stemming serta diharapkan dapat mendukung kemajuan ilmu
pengetahuan terutama dalam bidang pengolahan bahasa alam.
1.6 Sistematika Penulisan

Sistematika penulisan berisi pembahasan apa yang akan ditulis di setiap Bab. Sistematika
pada umumnya berupa paragraf yang setiap paragraf mencerminkan bahasan setiap Bab.
1.6.1 Bab I Pendahuluan
Bagian ini membahas mengenai latar belakang permasalahan, rumusan masalah, tujuan
penelitian, manfaat penelitian.
1.6.2 Bab II Teori Singkat
Bagian ini membahas mengenai tinjauan pustaka serta landasan teori yang digunakan.
1.6.3 Bab III Alur Pengembangan Sistem
Bagian ini membahas mengenai alur penelitian, penjabaran langkah penelitian, alat dan
bahan, metode pengembangan, ilustrasi perhitungan, dan rancangan pengujian.
1.6.4 Bab II Teori Singkat
Bagian ini membahas mengenai tinjauan pustaka serta landasan teori yang digunakan.
1.6.5 Bab III Alur Pengembangan Sistem
Bagian ini membahas mengenai alur penelitian, penjabaran langkah penelitian, alat dan
bahan, metode pengembangan, ilustrasi perhitungan, dan rancangan pengujian.
BAB II
TEORI SINGKAT
2.1 Sistem Rekomendasi
Sistem rekomendasi adalah sebuah teknik penemuan pengetahuan untuk membuat

rekomendasi yang dipersonalisasi untuk informasi, produk atau layanan. Pertumbuhan informasi
yang besar menimbulkan beberapa tantangan utama bagi sistem pemberi rekomendasi [22].
Sistem rekomendasi dapat melakukan prediksi berbagai macam hal seperti musik, musik, buku,
berita dan lain sebagainya yang sesuai dengan preferensi dari pengguna. Sistem ini dapat
berjalan dengan mengumpulkan data dari pengguna secara langsung maupun tidak [23].
Dalam membuat sistem rekomendasi, terdapat dua pendekatan utama yang dapat
digunakan yaitu content based filtering dan collaborative filtering. Content based filtering
memberikan rekomendasi item yang kemungkinan disukai oleh pengguna berdasarkan item lain
yang memiliki karakteristik yang sama. Collaborative filtering merupakan proses penyaringan
atau penilaian item dengan menggunakan informasi dari sumber lain [24].
2.2 Data Pre-Processing
Data Preprocessing adalah bagian penting dari analisis data. Proses ini bertujuan untuk
menghilangkan data yang tidak diinginkan dan berfokus pada data yang lebih penting. Pre-
processing merupakan langkah pertama yang penting dalam melakukan analisis data dimana data
mentah akan diubah menjadi data yang sudah “dibersihkan”, yang berarti variasi yang tidak
diinginkan telah dihapus. Hal ini membuat data yang sudah dibersihkan ini lebih sesuai dengan
tujuan analisis data [25].
Data Pre-processing dapat digunakan untuk menyesuaikan variabilitas dari setiap
variabel yang diukur dan hubungannya agar lebih sesuai dengan tujuan dari analisis data [26].
Pilihan metode atau kombinasi pra-pemrosesan yang optimal metode tergantung pada banyak
sifat yang berbeda dari data dan pada tujuan analisis data. Pilihan ini membutuhkan pemikiran
yang sangat hati-hati: ketika berhadapan dengan kumpulan data besar, dapat berdampak pada
masing-masing langkah pra-pemrosesan data numerik yang tidak transparan. Namun,
kesimpulan yang dapat ditarik harus kuat untuk jenis pra-pemrosesan data yang akan diterapkan
[27].
1
5
2.3 Bag-of-Words
Metodologi Bag-of-words pertama kali diusulkan untuk analisis dokumen teks dan
selanjutnya diadaptasi untuk komputer aplikasi penglihatan. Model diterapkan pada gambar
menggunakan analogi visual dari sebuah kata, yang dibentuk oleh fitur visual kuantisasi vektor
seperti wilayah deskriptor. Untuk menggunakan fitur dari Bag-of-words dari sebuah gambar,
user harus melibatkan langkah-langkah berikut [28]:
1. Secara otomatis mendeteksi wilayah/tempat menarik
2. Menghitung deskriptor lokal atas wilayah/titik tersebut
3. Mengkuantisasi deskriptor menjadi kata-kata untuk membentuk visual kosa kata, dan
4. Menemukan kejadian dalam gambar masing-masing kata khusus dalam kosa kata
untuk membangun BoW fitur (atau histogram frekuensi kata).
Model BoW dapat didefinisikan sebagai berikut. Diberikan sebuah dataset pelatihan D
berisi n gambar yang diwakili oleh D = D1, D2, ..., dan Dn, di mana D adalah fitur visual yang
akan diekstrak, dan juga merupakan algoritma pembelajaran tanpa pengawasan khusus, seperti k-
means, yang digunakan untuk mengelompokkan D berdasarkan jumlah kata visual yang tetap.
Kategori diwakili oleh W = W 1, W2, ..., dan Wv, di mana V adalah nomor cluster. Kemudian, kita
dapat meringkas data dalam tabel konkurensi V ×N jumlah N ij = n(wi, dj), di mana n(wi, dj)
menunjukkan seberapa sering kata wi muncul gambar di [29].
2.4 Cosine Similarity
Cosine Similarity adalah adalah sebuah metrik yang banyak digunakan karena sederhana
dan efektif. yang dapat mengukur kesamaan sebagai sudut antara dua vektor. Ukuran dasar
kesamaan pada Cosine Similarity tidak peka terhadap besaran. Namun, properti ini tidak selalu
menguntungkan. Misalnya, dua pola dengan nilai atribut yang sangat berbeda mungkin memiliki
ukuran kesamaan yang sangat tinggi [30].
Cosine similarity (CS) antara dua vektor x dan y didefinisikan sebagai:
❑
x y
CS ( x , y )=
‖ x ‖‖ y ‖
Dengan x dan y sebagai komponen dari vektor yang diberikan

6
Cosine Similarity memiliki sifat khusus yang membuatnya cocok untuk

metrik pembelajaran: ukuran kesamaan yang dihasilkan selalu berada
dalam kisaran −1 dan +1. Hal ini memungkinkan fungsi tujuan menjadi
lebih sederhana dan efektif [31].
2.5 Stemming
Salah satu algoritma yang digunakan untuk membantu dalam text mining adalah
stemming [32]. Stemming adalah metode yang digunakan untuk menghilangkan imbuhan dari
kata. Stemming adalah salah satu tahapan preprocessing. Hasil dari proses stemming disebut
stem. Penerapan proses stemming pada setiap bahasa berbeda-beda sesuai dengan modalitas
masing-masing bahasa. Jadi tujuan dari proses stemming adalah sama, untuk mendapatkan kata
dasar, dan tetap membutuhkan algoritma yang berbeda untuk setiap bahasa.
Penerapan stemming dalam bahasa inggris lebih mudah sedangkan proses stemming
dalam bahasa indonesia memiliki tingkat kesulitan yang lebih tinggi. Dalam hal ini dikarenakan
morfologi bahasa indonesia yang cukup beranekaragam. pada proses stemming ada dua metode
yaitu dengan berdasarkan kamus dan rule based. Beberapa algoritma yang digunakan seperti
algoritma Nazief dan Adriani, Vega, Arifin dan Setiono dan Porter, setiap algoritma nya
penerapannya berbeda-beda[33].
2.6 Lematisasi ( WordNet )

Lemmatization adalah proses yang bertujuan untuk melakukan normalisasi pada teks
dengan berdasarkan pada bentuk dasar yang merupakan bentuk lemmanya. Normalisasi adalah
mengidentifikasi dan menghapus imbuhan prefiks serta sufiks dari sebuah kata. Dimana, Lema
merupakan bentuk dasar sebuah kata yang memiliki arti tertentu yang berdasarkan pada kamus
[34]. Beberapa proses yang perlu dilakukan dalam algoritma lemmatization yaitu sebagai berikut:
a. Dictionary Lookup
b. Rule Precedence Check
c. Inflectional Suffix Removal
d. Derivational Suffix Removal
e. Derivational Prefix Removal
f. Recoding
7
g. Suffix Backtracking
Algoritma lematisasi memanfaatkan analisis leksikal dan aturan penulisan untuk

memisahkan dan menggabungkan kata yang dapat digunakan sebagai pemeriksaan kebenaran
ejaan berdasarkan 2 aturan PUEBI. Dengan menerapkan algoritma lemmatization, kata-kata
dapat diidentifikasi berdasarkan keakuratan kata dasarnya dan penggunaan afiksnya, jika tidak
ditemukan kata dasar untuk kata yang diperiksa, maka kata tersebut termasuk dalam kategori
kesalahan tipografi atau morfologi [35].
2.7. Mean Absolute Error

Mean Absolute Error (MAE) adalah metode yang digunakan untuk mengukur tingkat
keakuratan model peramalan. Nilai MAE merepresentasikan mean absolute error antara hasil
prediksi atau perkiraan dengan nilai sebenarnya [36]. Rumus MAE dijelaskan sebagai berikut,
1 n
MAE = Σ |f - y |
n i=1 i i
Dimana :
fi : adalah nilai hasil peramalan,
yi : adalah nilai sebenarnya, dan
η : adalah jumlah data.
Berdasarkan rumus 1 di atas, MAE menghitung rata – rata error dengan memberikan
bobot yang sama untuk seluruh data ( i=1 . .. η ¿ secara intuitif. Untuk evaluasi model peramalan,
MAE lebih intuitif dalam memberikan rata – rata error dari keseluruhan data. Dalam kasus ini
pemilihan MAE menjadi tepat karena seluruh data diberikan bobot yang sama [37].
BAB III
ALUR PENGEMBANGAN SISTEM
3.1 Alur Penelitian
Adapun alur penelitian yang akan dilakukan pada penelitian ini terangkum dalam
diagram alir pada Gambar 3.1 berikut.
Gambar 3.1 Alur Penelitian
3.2 Penjabaran Alur Penelitian

Berdasarkan Gambar 3.1, diketahui bahwa terdapat beberapa langkah penelitian dalam
penelitian ini. Adapun penjabaran dari alur penelitian yang akan ditempuh dalam memenuhi
penelitian ini adalah sebagai berikut..
1. Rumusan Masalah
Perumusan masalah adalah proses yang dilakukan untuk mengetahui merumuskan
permasalahan yang telah diidentifikasi sebagai landasan dari tujuan penelitian.
2. Studi Literatur
Studi literatur adalah proses yang bertujuan untuk menemukan penelitian terdahulu yang
berkaitan dengan dengan topik serta teori terkait metode serta hal - hal yang berhubungan dengan
topik.
8
9
10
3. Pengumpulan Data
Proses pengumpulan data dilakukan dengan tujuan mendapatkan data yang akan diolah
pada penelitian. Pengumpulan data pada penelitian dilakukan menggunakan dataset musik dari
Billboard. Dataset yang digunakan sebagai data testing ini berupa 1000 judul musik.
3. Rancangan Model
Perancangan model merupakan tahapan yang dilakukan dengan tujuan membangun
model rekomendasi berdasarkan metode yang telah ditetapkan. Adapun tahapan dalam
perancangan model adalah sebagai berikut.
Gambar 3.2 Rancangan Model
Pada Gambar 3.2 di atas dapat dilihat bahwa pada awal perancangan model melalui tahap
feature extraction yaitu tahapan untuk mengambil kolom tabel yang penting seperti judul, genre,
deskripsi, casting, dan director. Kemudian selanjutnya tahap pemrosesan data. Tahapan ini
dimulai dengan case folding yaitu mengubah seluruh huruf dari data ke dalam huruf kecil.
Selanjutnya adalah data cleaning atau pembersihan data dari partikel yang tidak dibutuhkan.
Kemudian dilanjutkan dengan tahapan stopword removal atau menghilangkan kata-kata yang
tidak memiliki makna dan tidak memberikan pengaruh dalam penilaian atau evaluasi. Tahap
berikutnya adalah tokenisasi atau mengubah kalimat kedalam bentuk token kata. Setelah tahap
11
tokenisasi selesai, kemudian dilakukan dua tahapan yaitu stemming atau menghapus imbuhan
pada kata dan mengembalikannya kepada akar kata sesuai dengan aturan morfologi dan
lematisasi yaitu mengembalikan kata berdasarkan kamus data.
Data yang telah melalui tahap preprocessing akan digunakan untuk membangun
pemodelan rekomendasi berdasarkan Bag Of Word menggunakan stemmer dan lematisasi.
Kemudian akan dicari cosine matrix nya. Yang nanti nya hasil akhir dari kedua metode ini akan
digunakan untuk evaluasi pada tahap berikutnya. Pada tahap evaluasi, hasil dari perancangan
model akan dibandingkan menggunakan Mean Absolute Error (MAE) untuk mencari metode
terbaik dari kedua pemrosesan data tersebut.
4. Evaluasi
Tahapan ini akan mengevaluasi hasil dari perancangan sistem dengan menggunakan
metode evaluasi Mean Absolute Error (MAE). MAE adalah penilaian secara linear, yang berarti
semua perbedaan dari setiap individu mempunyai bobot yang sama dalam rata-rata.
5. Pembahasan
Pembahasan merupakan tahapan yang ditempuh untuk membahas hasil dari rancangan
model dan evaluasi serta melihat capaian dari penelitian.
3.3 Ilustrasi Penerapan Metode

Ilustrasi penerapan metode akan dijelaskan melalui pembahasan contoh setiap tahapan
penelitian sebagai berikut.
3.3.1 Ilustrasi Feature Extraction
Tahap feature extraction yaitu tahapan untuk mengambil kolom tabel yang penting
seperti judul, genre, deskripsi, casting, dan director.
3.3.2 Ilustrasi Data Preprocessing

Sesuai dengan alur penelitian, data preprocessing terdiri dari beberapa tahapan. Pada
ilustrasi ini akan dibahas setiap tahapan beserta contoh penerapannya.
12
1. Case Folding
Case Folding merupakan tahapan untuk mengonversi seluruh teks menjadi huruf kecil,
tahapan ini akan mengganti seluruh huruf kapital dengan tujuan untuk konsistensi data.
Tabel 3.1 Contoh Case Folding
Input Output
There are a number of Love musiks showing in 2022 there are a number of love musiks showing in 2022
such as, Thor Love and Thunder, Black, Young :Dumb. such as, thor love and thunder, black young dumb.
2. Data Cleaning
Data Cleaning merupakan tahapan untuk menghilangkan tanda baca dari berita karena
tidak mempengaruhi informasi yang dimuat oleh dokumen.
Tabel 3.2 Contoh data cleaning
Input Output
there are a number of love musiks showing in such as, there are a number of love musiks showing in such as
thor love and thunder, black young : dumb. thor love and thunder black young dumb.
3. Stopword Removal
Tahapan yang dilakukan untuk menghapus kata-kata yang dianggap tidak penting atau
tidak mewakili suatu dokumen.
Tabel 3.3 Contoh stopword removal
Input Output
there are a number of love musiks showing in such as number love musiks showing thor love thunder black
thor love and thunder black young dumb. young dumb.
4. Tokenisasi
Tahapan tokenisasi merupakan tahap yang dilakukan untuk memisahkan setiap kata
dalam kalimat menjadi token kata.
Tabel 3.4 Contoh tokenisasi
Input Output
13
number love musiks showing thor love thunder black ['number', 'love', 'musiks', 'showing', 'thor', 'love',
young dumb. 'thunder', 'black', 'young', 'dumb']
5. Stemming
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.5 Stemming
Input Output
['number', 'love', 'musiks', 'showing', 'thor', 'love', [‘number’, ‘love’, ‘musik’, ‘show’, ‘thor’ , ‘love’,
'thunder', 'black', 'young', 'dumb'] ‘thunder’, ‘black’, ‘young’, ‘dumb’]
6. Lematisasi
Merupakan tahapan yang dilakukan dalam upaya mengembalikan kata dengan imbuhan
menjadi kata dasarnya, metode ini biasa digunakan untuk mengantisipasi perubahan kata yang
tidak beraturan.
Tabel 3.6 Lematisasi
Input Output
[‘there’, ‘ are’, ‘a’, ‘number’, ‘of’, ‘love’, ‘musiks’, [‘number’, ‘love’, ‘musik’, ‘show’, ‘thor’ , ‘love’,
‘showing’, ‘in’ , ‘2022’, ‘such’ , ‘as’ , ‘thor’, ‘love’, ‘thunder’, ‘black’, ‘young’, ‘dumb’ ]
‘and’, ‘thunder’, ‘black’, ‘young’, ‘dumb’]
14
3.3.3 Ilustrasi Bag Of Word dan Cosine Similarity

Berikut ini merupakan ilustrasi perhitungan untuk menentukan kesamaan dari dokumen
menggunakan bag of word dan Cosine Similarity.
1. Ilustrasi Perhitungan pada Bag Of Word dan Cosine Similarity

Perhitungan dilakukan dengan mencari sebaran kata dari 2 dokumen contoh yang tertera
pada Tabel 3.8 sebagai berikut:
Tabel 3.7 Contoh Dokumen
Dokumen Deskripsi
D1 children musik with cheerful and fun genre
D2 Reggae pop musik that children admire
Adapun Ilustrasi perhitungan Bag Of Word dapat dilihat pada Tabel 3.8 sebagai berikut.
Tabel 3.8 Perhitungan Bag Of Word
Frekuensi
Term D1 x D2 D 12 D 22
D1 D2
children 1 1 1 1 1
musik 1 1 1 1 1
with 1 0 0 1 0
cheerfull 1 0 0 1 0
and 1 0 0 1 0
fun 1 0 0 1 0
genre 1 0 0 1 0
pop 0 1 0 0 1
reggae 0 1 0 0 1
15
Frekuensi
Term D1 x D2 D1
2
D2
2
D1 D2
that 0 1 0 0 1
admire 0 1 0 0 1
Jumlah 2 7 6
Akar √ 7=2.64 √ 6=2.44

Cosine similarity 2 0.31
2.64 x 2.44
2. Ilustrasi Perhitungan pada Evaluasi :

Perhitungan evaluasi dilakukan menggunakan MAE untuk membandingkan stemming
dan lematisasi. Ilustrasi perhitungan dilakukan menggunakan 5 dokumen dengan setiap
dokumen memiliki 3 data prediksi dan 3 data sebenarnya sehingga jumlah data hasil
prediksi dan hasil sebenarnya adalah 15 data. Adapun ilustrasi perhitungan evaluasi
adalah sebagai berikut.
Tabel 3.9 Contoh Data Evaluasi
Hasil Prediksi Cosine

Similarity
Similarity menggunakan Hasil Sebenarnya
Doku menggunakan
lematisasi
men stemming
R1 R2 R3 R1 R2 R3 R1 R2 R3
D1 D2 D4 D5 D1 D4 D2 D2 D3 D4
D2 D5 D3 D1 D5 D2 D4 D4 D5 D1
D3 D2 D3 D2 D2 D1 D4 D1 D5 D2
D4 D4 D3 D5 D2 D5 D3 D1 D5 D3
16

Similarity
Similarity menggunakan Hasil Sebenarnya
Doku menggunakan
lematisasi
men stemming
R1 R2 R3 R1 R2 R3 R1 R2 R3
D5 D1 D2 D5 D2 D4 D5 D4 D1 D2
Dari tabel tersebut selanjutnya dilakukan perhitungan nilai MAE dilakukan

menggunakan seperti yang dijelaskan pada Tabel 3.10 sebagai berikut :
Tabel 3.10 Ilustrasi Perhitungan MAE
Error Satuan Mutlak

Metode Jumlah
D1 D2 D3 D4 D5
Stemming 1 1 2 1 1 6
Lematisasi 1 1 1 1 1 5
MAE Menggunakan Stemming 6/5 1.8
MAE Menggunakan Lematisasi 5/5 1.0

17
BAB IV
HASIL DAN PEMBAHASAN
4.1 Hasil Penelitian

Penelitian ini menggunakan dataset musik sebanyak 1000 data musik yang diambil dari
situs penilaian musik yaitu Billboard. Namun hasil belum didapatkan karena tidak jalan nya
program yang dibuat
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan dari percobaan yang dilakukan makan disimpulkan bahwa kami

mendapatkan kegagalan dalam membuat program, sehingga perbandingan tidak kami dapatkan.
5.2 Saran
Hasil dari penelitian sangat bergantung dari dataset yang digunakan dan program yang
dijalankan, untuk memperoleh hasil yanag tepat disrankan penelitian berikutnya dapat
mendapatkan dataset dan membuat program yang bisa dijalankan.
25
DAFTAR PUSTAKA
[1] R. Oktora and W. Susanty, “Perancangan aplikasi e-commerce Dengan Sistem

Rekomendasi Item-based collaborative filtering,” EXPERT: Jurnal Manajemen Sistem
Informasi dan Teknologi, vol. 3, no. 1, 2013.
[2] M. K. P. Hidayat, “Model Sistem Informasi Toko Musik Digital Dengan Recommender
System,” p. 3, 2013.
[3] S. Deerwester, S. Dumais, G. Furnas, T. Landauer, and R.Harshman, “Indexing by

latent semantic analy-sis,” Journal of American Society of Information Sciences, 1990.
[4] D. Blei, A. Ng, and M. Jordan, “Latent Dirichlet Allo-cation,” Journal of Machine
Learning Research, pp. 993–1022, 2003.
[5] T. L. Griffiths and M. Steyvers, A road to meaning. Lau-rence Erlbaum, 2007, ch.
Probabilistic topic models.
[6] T. Hoffman, “Probabilistic latent semantic analysis,”in Proceedings of Uncertainty in

Artificial Intelligence, 1999.
[7] X. Wei and W. B. Croft, “LDA-based document models for ad-hoc retrieval,” in
Proceedings of ACM SIGIR, 2006.
[8] J. Engel, et al., Breaking with trends in pre-processing? Trac. Trends Anal.Chem. 50
(2013) 96e106.
[9] Å. Rinnan, F.v.d. Berg, S.B. Engelsen, Review of the most common pre-processing
techniques for near-infrared spectra, Trac. Trends Anal. Chem. 28 (10) (2009)
1201e1222.
[10] L.C. Lee, C.Y. Liong, A.A. Jemain, A contemporary review on Data Preprocessing
(DP) practice strategy in ATR-FTIR spectrum, Chemometr. Intell. Lab. Syst. 163
(2017) 64e75
[11] P. Oliveri, et al., The impact of signal pre-processing on the final interpretation of
analytical outcomes e a tutorial, Anal. Chim. Acta 1058 (2019) 9e17.
[12] J. Gerretzen, et al., Simple and effective way for data preprocessing selection based on
design of Experiments, Anal. Chem. 87 (24) (2015) 12096e12103.
[13] Alkula, R. From plain character strings to meaningful words: Producing better full text
databases for inflectional and compounding languages with morphological analysis
26
27
software. Information Retrieval, 4, (2001), 195-208.
[14] Krovetz, R. Viewing morphology as an inference process. Proceedings of the Sixteenth

Annual International ACM/SIGIR Conference on Research and Development in
Information Retrieval (SIGIR’93) (Pittsburg, PA, 27 June - 1 July 1993). ACM Press,
New York, NY, 1993, 191-202.
[15] Pirkola, A. Morphological typology of languages for information retrieval. Journal of

Documentation, 57, 3 (2001), 330-348
[16] Hull, D. Stemming algorithms: a case study for detailed evaluation. Journal of the
American Society for Information Science, 47, 1 (1996), 70-84
[17] Popovic, M., and Willett, P. The effectiveness of stemming for natural-language access
to Slovene textual data. Journal of the American Society for Information Science, 43, 1
(1992), 384-390.
[18] Savoy, J. A stemming procedure and stopword list for general French corpora. Journal
of the American Society for Information Science, 50, 10 (1999), 944-952.
[19] Kalamboukis, T. Z. Suffix stripping with modern Greek. Program, 29, 3 (1995), 313-
321.
[20] Abu-Salem, H., Al-Omari, M., and Evens, M. W. Stemming methodologies over
individual query words for an Arabic information retrieval system. Journal of the
American Society for Information Science, 50, 6 (1999), 524-529.
[21] Rosell, M. Improving clustering of Swedish newspaper articles using stemming and
compound splitting. In Fourteenth Nordic Conference on Computational Linguistics
(NoDaLiDa 2003) (Reykjavik, Island, May 30-31, 2003)
[22] B. Sarwar, G. Karypis, and J. Konstan, “Item-Based Collaborative Filtering

Recommendation,” GroupLens Res. Group/Army HPC Res. Cent. Dep. Comput. Sci.
Eng., pp. 286–295, 2001.
[23] F. W. M. Fadlil, “Pembuatan Aplikasi Rekomendasi Menggunakan Decision Tree dan

Clustering,” vol. 3, no. Kursor, pp. 45–46, 2007.
[24] L. Dzumiroh and R. Saptono, “Penerapan Metode Collaborative Filtering Menggunakan

Rating Implisit pada Sistem Rekomendasi Pemilihan Musik di Rental VCD,” J. Teknol.
Inf. ITSmart, vol. 1, no. 2, p. 54, 2016, doi: 10.20961/its.v1i2.590.
[25] R. A. van den Berg, H. C. J. Hoefsloot, J. A. Westerhuis, A. K. Smilde, and M. J. van

der Werf, “Centering, scaling, and transformations: Improving the biological
28
information content of metabolomics data,” BMC Genomics, vol. 7, pp. 1–15, 2006, doi:
10.1186/1471-2164-7-142.
[26] J. Forshed, I. Schuppe-Koistinen, and S. P. Jacobsson, “Peak alignment of NMR signals

by means of a genetic algorithm,” Anal. Chim. Acta, vol. 487, no. 2, pp. 189–199, 2003,
doi: 10.1016/S0003-2670(03)00570-1.
[27] A. Bosch, X. Muñoz, and R. Martí, “Which is the best way to organize/classify images
by content?,” Image Vis. Comput., vol. 25, no. 6, pp. 778–791, 2007, doi:
10.1016/j.imavis.2006.07.015.
[28] C.-F. Tsai, “Bag-of-Words Representation in Image Annotation: A Review,” ISRN

Artif. Intell., vol. 2012, pp. 1–19, 2012, doi: 10.5402/2012/376804.
[29] P. Xia, L. Zhang, and F. Li, “Learning similarity with cosine similarity ensemble,” Inf.
Sci. (Ny)., vol. 307, pp. 39–52, 2015, doi: 10.1016/j.ins.2015.02.024.
[30] H. V. Nguyen and L. Bai, “Cosine similarity metric learning for face verification,” Lect.
Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes
Bioinformatics), vol. 6493 LNCS, no. PART 2, pp. 709–720, 2011, doi: 10.1007/978-3-
642-19309-5_55.
[31] Al Ajeeli, A. T. (2016). An Intelligent Framework for Natural Language Stems

Processing. Global Journal of Computer Science and Technology, 16 (1), 22 - 38
[32] A. A. Margiyanti, “Analisis Pengembangan Algoritma Porter Stemming Dalam Bahasa

Indonesia,” Sekolah Tinggi Elektronika dan Komputer PAT.
[33] Suhartono, Derwin., 2014. Lemmatization Technique in Bahasa: Indonesian Language

(JOURNAL OF SOFTWARE, VOL.9, NO.5).
[34] C.-F. Tsai, “Bag-of-Words Representation in Image Annotation: A Review,” ISRN

Artif. Intell., vol. 2012, pp. 1–19, 2012, doi: 10.5402/2012/376804.
[35] J. P. R. D. YUSUP MIFTAHUDDIN, “Penerapan Algoritma Lemmatization pada

Dokumen Bahasa Indonesia,” MIND Journal, vol. 3, pp. 47-56, 2018.
[36] Subagyo, Pangestu, 1986, Forecasting Konsep dan Aplikasi, Yogyakarta, BPPE UGM.
[37] A. M. Andik Adi Suryanto, “Penerapan Metode Mean Absolute Error (Mea) Dalam
Algoritma Regresi Linier Untuk Prediksi Produksi Padi,” Sains dan Teknologi, vol. 11,
2019.

Laporan NLP 123

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Laporan NLP 123

Diunggah oleh

Hak Cipta:

Format Tersedia

LAPORAN TUGAS BESAR

PENGOLAHAN BAHASA ALAMI

“Perbandingan Metode Pre-Processing Menggunakan Steamer dan Lematisasi Pada Model

Nazel Marfi Alfawwaz (14116012)

PROGRAM STUDI TEKNIK INFORMATIKA

Gambar 3.1 Alur Penelitian 12

Tabel 3.1 Contoh Case Folding 16

1.2 Rumusan Masalah

1.3 Tujuan Penelitian

1.4 Batasan Masalah

2. Data yang digunakan berbahasa inggris.

1.5 Manfaat Penelitian

1.6 Sistematika Penulisan

Sistem rekomendasi adalah sebuah teknik penemuan pengetahuan untuk membuat

2.2 Data Pre-Processing

2.4 Cosine Similarity

Dengan x dan y sebagai komponen dari vektor yang diberikan

Cosine Similarity memiliki sifat khusus yang membuatnya cocok untuk

2.6 Lematisasi ( WordNet )

Algoritma lematisasi memanfaatkan analisis leksikal dan aturan penulisan untuk

2.7. Mean Absolute Error

ALUR PENGEMBANGAN SISTEM

3.1 Alur Penelitian

Gambar 3.1 Alur Penelitian

3.2 Penjabaran Alur Penelitian

Gambar 3.2 Rancangan Model

3.3 Ilustrasi Penerapan Metode

3.3.2 Ilustrasi Data Preprocessing

Tabel 3.1 Contoh Case Folding

Tabel 3.2 Contoh data cleaning

Tabel 3.3 Contoh stopword removal

Tabel 3.4 Contoh tokenisasi

3.3.3 Ilustrasi Bag Of Word dan Cosine Similarity

1. Ilustrasi Perhitungan pada Bag Of Word dan Cosine Similarity

Tabel 3.7 Contoh Dokumen

D1 children musik with cheerful and fun genre

D2 Reggae pop musik that children admire

Tabel 3.8 Perhitungan Bag Of Word

Akar √ 7=2.64 √ 6=2.44

2. Ilustrasi Perhitungan pada Evaluasi :

Tabel 3.9 Contoh Data Evaluasi

Hasil Prediksi Cosine

Hasil Prediksi Cosine

Dari tabel tersebut selanjutnya dilakukan perhitungan nilai MAE dilakukan

Tabel 3.10 Ilustrasi Perhitungan MAE

Error Satuan Mutlak

MAE Menggunakan Stemming 6/5 1.8

MAE Menggunakan Lematisasi 5/5 1.0

HASIL DAN PEMBAHASAN

4.1 Hasil Penelitian

KESIMPULAN DAN SARAN

Berdasarkan dari percobaan yang dilakukan makan disimpulkan bahwa kami

[1] R. Oktora and W. Susanty, “Perancangan aplikasi e-commerce Dengan Sistem

[3] S. Deerwester, S. Dumais, G. Furnas, T. Landauer, and R.Harshman, “Indexing by

[6] T. Hoffman, “Probabilistic latent semantic analysis,”in Proceedings of Uncertainty in

software. Information Retrieval, 4, (2001), 195-208.

[14] Krovetz, R. Viewing morphology as an inference process. Proceedings of the Sixteenth

[15] Pirkola, A. Morphological typology of languages for information retrieval. Journal of

[22] B. Sarwar, G. Karypis, and J. Konstan, “Item-Based Collaborative Filtering

[23] F. W. M. Fadlil, “Pembuatan Aplikasi Rekomendasi Menggunakan Decision Tree dan

[24] L. Dzumiroh and R. Saptono, “Penerapan Metode Collaborative Filtering Menggunakan

[25] R. A. van den Berg, H. C. J. Hoefsloot, J. A. Westerhuis, A. K. Smilde, and M. J. van

[26] J. Forshed, I. Schuppe-Koistinen, and S. P. Jacobsson, “Peak alignment of NMR signals