METODOLOGI PENELITIAN
Metodologi yang diterapkan dalam penelitian ini terdiri dari beberapa tahap,
1. Studi Literatur
melakukan studi dari berbagai referensi seperti jurnal dan buku terkait.
2. Analisis Kebutuhan
perangkat lunak dan perangkat keras yang dipakai. Pada tahapan ini juga
dilakukan pengumpulan data berupa teks berita yang di dapat dari situs berita
21
flowchart dari penelitian yang dilakukan, dilanjutkan dengan pembuatan sistem
kode dan visualisasi dari dataset serta hasil penelitian menggunakan bahasa
pemrograman Python.
pengujian juga dilakukan untuk menguji dan melakukan validasi terhadap hasil
membandingkan hasil ringkasan sistem dengan hasil ringkasan dari pakar atau
native speaker terpilih. Nilai precision, recall, dan f-measure yang dihasilkan
akan dievaluasi untuk membuat kesimpulan atas rumusan masalah yang telah
dijabarkan sebelumnya.
sehingga dapat dijadikan sebagai referensi dan sarana ilmu pengetahuan untuk
flowchart utama yang menjelaskan alur kerja sistem secara keseluruhan, kemudian
untuk setiap modul dalam flowchart utama dijelaskan kembali secara lebih
22
3.2.1 Flowchart Utama
Proses diawali dengan melakukan import library dan file pendukung proses
penelitian. File pendukung berisikan dua hal, pertama artikel beserta hasil
rangkuman dari pakar; kedua, data training pada TfidfVectorizer berisi kumpulan
kalimat berita pada situs CNNindonesia dan Kompas.com selama satu tahun
terakhir. Proses dilanjutkan dengan melakukan preprocessing pada data berita yang
berasal dari 2 situs berbeda sehingga teks berita dapat bertransformasi menjadi
bentuk yang lebih mudah dicerna oleh algoritme TextRank. Selanjutnya dilakukan
evaluasi pada analisa kemudian akan ditampilkan dalam bentuk grafik plot. Alur
23
3.2.2 Flowchart Preprocessing
tokenizing kata. Alur pada langkah preprocessing dapat dilihat pada Gambar 3.2.
satu. Hal ini dilakukan untuk memudahkan proses preprocessing dan perhitungan
cosine similarity pada proses implementasi algoritme TextRank. Hasil dari tahap
24
data[‘combined_news’]. Alur pada langkah text combining dapat dilihat pada
Gambar 3.3.
Pada proses ini, berita yang sudah melalui proses text combining kemudian
menggunakan library nltk, kelas sent_tokenize. Hasil dari tahap ini kemudian akan
25
C. Flowchart Filtering
umum yang tidak terlalu penting. Proses filtering pada penelitian ini menggunakan
dengan kata-kata pada kamus stopwords pada library Phyton Sastrawi. Jika kata
pada berita tersebut sesuai dengan kata pada kamus stopwords, maka kata tersebut
akan dihapus. Alur pada langkah filtering dapat dilihat pada Gambar 3.5.
Stemming dilakukan untuk mencari kata dasar pada setiap kata di berita
dengan mengiterasi array dalam DataFrame yang sudah diproses sebelumnya pada
26
Sastrawi. Hasil dari tahap ini kemudian akan disimpan dalam bentuk DataFrame
dengan nama data[‘stemmed’]. Alur pada langkah stemming dapat dilihat pada
Gambar 3.6.
Pada proses tokenizing kata, kalimat pada berita yang sudah dilakukan
stemming akan dipecah per kata pada kalimat tersebut dengan delimiter spasi.
Setelah itu, akan dimasukkan ke dalam array baru yang berisi pemecahan kata pada
setiap kalimat. Hasil dari tahap ini kemudian akan disimpan dalam bentuk
27
Gambar 3.7 Flowchart Tokenizing Kata
Sebelumnya, tiap kalimat harus melalui proses representasi kata atau kalimat
adalah kumpulan kata yang akan digunakan dalam proses mengubah token menjadi
integer. Sebagai contoh, jika ada token/kata “saya” dalam input kalimat, sistem
akan mencari kata “saya” pada word dictionary. Kemudian sistem akan mengecek
pada indeks keberapa kata yang dicari tersebut dan memberikan bobot sesuai
28
Dalam penelitian ini, diterapkan beberapa metode dalam memperoleh word
dictionary (secara global dan lokal) dan permodelan embedding terhadap algoritme
TextRank. Terdapat flowchart utama untuk menjelaskan alur kerja sistem secara
kembali secara lebih mendetail pada bagian selanjutnya. Alur pada algoritme
TextRank dapat dilihat pada Gambar 3.8. Seluruh proses wajib dijalani dalam
melakukan tahap TextRank, kecuali membuat word dictionary. Proses ini hanya
29
A. Perolehan Word Dictionary
dictionary yaitu secara global dan lokal. Proses perolehan word dictionary secara
global dilakukan terhadap seluruh kalimat pada dataset berita (sebanyak 60 topik
atau dengan total 120 berita). Word dictionary yang dihasilkan akan digunakan
untuk setiap kalimat pada dataset. Oleh karena itu, word dictionary pada topik 1
dan topik 2 sama. Sedangkan pada proses perolehan word dictionary secara lokal
dilakukan terhadap seluruh kalimat pada setiap topik berita (setiap 1 topik berita).
Word dictionary yang dihasilkan akan digunakan untuk setiap kalimat pada berita
dengan topik yang sama. Oleh karena itu, word dictionary pada topik 1 dan topik 2
akan berbeda.
Sedangkan proses pembentukan word dictionary secara lokal akan dilakukan pada
encoding, TF-IDF, dan FastText. Untuk setiap model akan dijelaskan secara lebih
dengan mencari token/kata unik pada seluruh kalimat di berita dan menyimpannya
word dictionary dengan permodelan one-hot encoding dapat dilihat pada Gambar
3.9.
30
Gambar 3.9 Flowchart Word Dictionary Global Dengan Model One-Hot
Encoding
A.2 TF-IDF
mencari token/kata unik pada seluruh berita melalui proses training pada model
metode ini di antaranya memanfaatkan data training yang berasal dari kumpulan
kalimat berita pada situs CNNindonesia dan Kompas.com selama satu tahun
penggunaan data training yang berasal dari seluruh dataset. Data tersebut
sebelumnya telah melalui tahap preprocess dan disimpan dalam modul Pickle.
31
Gambar 3.10 Flowchart Word Dictionary Global Dengan Model TF-IDF
A.3 FastText
mencari token/kata unik pada seluruh berita melalui proses training pada model
FastText menggunakan library FastText. Data yang digunakan pada proses training
berasal dari kumpulan seluruh kalimat berita pada dataset yang kemudian disimpan
dalam file dengan format .txt bernama fasttext-train.txt. Untuk melakukan proses
Model yang digunakan dalam melakukan representasi kata adalah Skipgram. Alur
pada pembentukan word dictionary dengan permodelan FastTest dapat dilihat pada
Gambar 3.11.
32
Gambar 3.11 Flowchart Word Dictionary Global Dengan Model FastText
similarity) dan normalisasi matriks similarity. Hasil dari tahap ini adalah matrix
yang berisi nilai similarity antara sebuah kalimat dengan kalimat lain pada suatu
berita. Alur utama pada tahap pembuatan similarity matrix dapat dilihat pada
Gambar 3.12, kemudian untuk setiap modul dalam flowchart dijelaskan kembali
33
Gambar 3.12 Flowchart Similarity Matrix
dibandingkan akan mengalami representasi kata sesuai dengan word dictionary dan
antar dua kalimat tersebut sesuai dengan rumus cosine similarity. Berikut
menginisasi matrix vektor1 dan vektor2 dengan nilai 0 sesuai dengan panjang word
dictionary secara global. Nilai pada matrix akan berubah menjadi 1 pada posisi
34
index ke-i ketika kata ke-i pada word dictionary berada pada kalimat yang ingin
matrix pada vektor1 dan vektor2 sesuai dengan rumus cosine similarity. Alur
35
B.2 TF-IDF
antar kalimat diperoleh dengan membandingkan matrix pada vektor1 dan vektor2
sesuai dengan rumus cosine similarity. Alur sentence similarity dengan permodelan
TF-IDF dengan word dictionary global dapat dilihat pada Gambar 3.14.
B.3 FastText
36
Setelah itu, kalimat akan direpresentasikan menggunakan method
diperoleh dengan membandingkan matrix pada vektor1 dan vektor2 sesuai dengan
37
B.2.1 One-Hot Encoding
memperoleh word dictionary berdasarkan unique word pada 2 berita yang sedang
diuji. Setelah itu, menginisasi matrix vektor1 dan vektor2 dengan nilai 0 sesuai
dengan panjang word dictionary yang telah diperoleh. Nilai pada matrix akan
berubah menjadi 1 pada posisi index ke-i ketika kata ke-i pada word dictionary
diperoleh dengan membandingkan matrix pada vektor1 dan vektor2 sesuai dengan
encoding dengan word dictionary lokal dapat dilihat pada Gambar 3.16 dan Gambar
3.17.
38
Gambar 3.17 Lanjutan Flowchart Sentence Similarity Lokal Dengan One-Hot
Encoding
B.3 TF-IDF
dan word dictionary pada 2 berita yang sedang diuji. Setelah itu, kalimat akan
vektor1 dan vektor2. Alur sentence similarity dengan permodelan TF-IDF dengan
39
Gambar 3.18 Flowchart Sentence Similarity Lokal Dengan TF-IDF
B.4 FastText
dan word dictionary pada 2 berita yang sedang diuji. Setelah itu, kalimat akan
40
matrix pada vektor1 dan vektor2. Alur sentence similarity dengan permodelan
FastText dengan word dictionary global dapat dilihat pada Gambar 3.19.
mengandung nilai similarity antara sebuah kalimat dengan kalimat lainnya dalam
sebuah berita. Nilai yang diperoleh pada matrix tersebut memiliki rentang nilai
yang terlalu besar atau kadang terlalu kecil. Oleh sebab itu, diperlukan adanya
normalisasi matrix agar nilainya berada pada rentang yang sama. Contoh matrix
41
similarity sebelum normalisasi dan matrix similarity setelah normalisasi dapat
dilihat pada Gambar 3.20. Alur pada tahap normalisasi matrix dapat dilihat pada
Gambar 3.21.
D. Flowchart PageRank
diawali dengan pembacaan matrix similarity yang telah disimpan sebelumnya pada
dihitung nilai pada kalimat tersebut. Nilai yang diperoleh kemudian akan
dibandingkan dengan nilai yang lama dengan menghitung delta atau selisih dari
kedua nilai tersebut. Proses akan terus berulang hingga delta sudah lebih kecil
42
menggunakan function sort pada Python. Index kalimat hasil pemeringkatan
nilai compression yang ingin diaplikasikan pada sistem. Dalam penelitian ini, akan
dilakukan pengujian terhadap nilai compression ratio sebesar kelipatan lima dari
dan pakar. Setelah hasil compression dari sistem dan pakar diperoleh, akan
dilakukan evaluasi nilai precision, recall, dan f-measure untuk memperoleh akurasi
pada sistem. Hasil akurasi ditampilkan dalam bentuk grafik plot. Alur pada tahap
43
Gambar 3.23 Flowchart Analisa Compression Ratio
44