LSA merupakan salah satu metode penilaian esei yang digunakan pada IEA dimana
memiliki acceptance (kecocokan) dengan human raters sebesar 85% – 91%. Dalam
pemeriksaaan jawaban esai dengan metode LSA langkah awal yang dilakukan adalah
merepresentasikan tulisan, dalam hal ini jawaban kunci dosen dan jawaban mahasiswa, ke
dalam sebuah matriks. Pada matriks jawaban dosen, tiap sel merepresentasikan jumlah
kehadiran kata kunci jawaban dosen pada tiap kalimat. Sedangkan pada matriks jawaban
mahasiswa, tiap sel merepresentasikan jumlah kata kunci jawaban dosen yang ada di dalam
tiap kalimat jawaban mahasiswa. Selanjutnya kedua matriks ini dilakukan proses Singular
Value Decomposition atau SVD. Setelah dilakukan proses SVD, vektor jawaban mahasiswa
dan vektor jawaban dosen akan dihitung kemiripannya. Vektor ini yang kemudian
dibandingkan dengan vektor jawaban esai mahasiswa, lalu dipilih mana yang terbaik, secara
otomatis. q adalah vektor query dan d adalah vektor dokumen. Automated Essay Grading
System adalah suatu sistem yang menghitung kemiripan (korelasi) antara jawaban kunci
(query) dengan jawaban mahasiswa (dokumen). Teknik korelasi yang umum digunakan
adalah dengan mencari nilai kosinus sudut yang dibentuk antara vektor query dan vektor
dokumen. Semua data jawaban baik mahasiswa maupun dosen yang akan diolah sebelumnya
mengalami preprocessing text. Setelah dilakukan proses preprosessing langkah selanjutnya
adalah pembuatan matriks baik jawaban dosen maupun jawaban mahasiswa. Setelah matriks
terbentuk keduanya dilakukan proses SVD yang kemudian dilanjutkan rekonstruksi matriks
dengan Truncated SVD. Langkah selanjutnya adalah proses pembentukan vektor query
maupun vektor dokumen. Kemudian ketika vektor sudah terbentuk, antara jawaban dosen
dan jawaban mahasiswa dihitung similaritasnya. Dalam hal ini dilakukan proses rekonstruksi
matriks hasil SVD. Matrks hasil rekonstruksi ini dibentuk karena adanya proses
pengurangan dimensi matriks singular S(n x n) menjadi S(t x t) , dimana t << n. Pada
penilaiaan sistem, jawaban yang bernilai tinggi adalah jawaban yang mengandung kata
kunci yang diberikan oleh dosen, memiliki jumlah kata kunci yang hampir sama, serta
memiliki jumlah kemunculan kata kunci pada tiap kalimat yang hampir sama dengan
jawaban dosen. Sedangkan nilai yang berbeda namun tidak terlalu signifikan (0-10 poin)
menunjukkan bahwa proses stemming telah berjalan baik pada jawaban esei soal tersebut.
Dari data pada Tabel 3 dapat dianalisis bahwa nilai yang dihasilkan oleh AEGS pada
pengujian-dengan-stemming dan pada pengujian-tanpa-stemming rata-rata hanya memiliki
perbedan dibawah 1 % yaitu 0,49% dan 0, 63%. (20 kalimat)
LSA merupakan salah satu metode penilaian esei yang digunakan pada IEA dimana
memiliki acceptance (kecocokan) dengan human raters sebesar 85% – 91%. Dalam
pemeriksaaan jawaban esai dengan metode LSA langkah awal yang dilakukan adalah
merepresentasikan tulisan, dalam hal ini jawaban kunci dosen dan jawaban mahasiswa, ke
dalam sebuah matriks. Selanjutnya kedua matriks ini dilakukan proses Singular Value
Decomposition atau SVD. Vektor ini yang kemudian dibandingkan dengan vektor jawaban
esai mahasiswa, lalu dipilih mana yang terbaik, secara otomatis Automated Essay Grading
System adalah suatu sistem yang menghitung kemiripan (korelasi) antara jawaban kunci
(query) dengan jawaban mahasiswa (dokumen). Teknik korelasi yang umum digunakan
adalah dengan mencari nilai kosinus sudut yang dibentuk antara vektor query dan vektor
dokumen. Semua data jawaban baik mahasiswa maupun dosen yang akan diolah
sebelumnya mengalami preprocessing text. Matrks hasil rekonstruksi ini dibentuk karena
adanya proses pengurangan dimensi matriks singular S(n x n) menjadi S(t x t) , dimana t <<
n. Pada penilaiaan sistem, jawaban yang bernilai tinggi adalah jawaban yang mengandung
kata kunci yang diberikan oleh dosen, memiliki jumlah kata kunci yang hampir sama, serta
memiliki jumlah kemunculan kata kunci pada tiap kalimat yang hampir sama dengan
jawaban dosen. Dari data pada Tabel 3 dapat dianalisis bahwa nilai yang dihasilkan oleh
AEGS pada pengujian-dengan-stemming dan pada pengujian-tanpa-stemming rata-rata
hanya memiliki perbedan dibawah 1 % yaitu 0,49% dan 0, 63%. (10 kalimat)
LSA merupakan salah satu metode penilaian esei yang digunakan pada IEA dimana
memiliki acceptance (kecocokan) dengan human raters sebesar 85% – 91%. Automated
Essay Grading System adalah suatu sistem yang menghitung kemiripan (korelasi) antara
jawaban kunci (query) dengan jawaban mahasiswa (dokumen). Teknik korelasi yang umum
digunakan adalah dengan mencari nilai kosinus sudut yang dibentuk antara vektor query dan
vektor dokumen. Pada penilaiaan sistem, jawaban yang bernilai tinggi adalah jawaban yang
mengandung kata kunci yang diberikan oleh dosen, memiliki jumlah kata kunci yang hampir
sama, serta memiliki jumlah kemunculan kata kunci pada tiap kalimat yang hampir sama
dengan jawaban dosen. Dari data pada Tabel 3 dapat dianalisis bahwa nilai yang dihasilkan
oleh AEGS pada pengujian-dengan-stemming dan pada pengujian-tanpa-stemming rata-rata
hanya memiliki perbedan dibawah 1 % yaitu 0,49% dan 0, 63%. (5 kalimat)
Jurnal 32
Proses yang berjalan dalam sistem temu kembali informasi adalah proses indexing subsystem,
yang merupakan proses persiapan ulang dilakukan terhadap dokumen sehingga dokumen siap
diproses, dan searching subsystem (macthingsystem) yang merupakan proses menemukan
kembali informasi (dokumen) yang relevan terhadap query yang diberikan. Tahap Analisa
dilakukan dengan menganalisis metode mesin Information Retrieval yang digunakan meliputi
analisis Text Preprocessing untuk koleksi dokumen (corpus) yaitu: Pemecahan kalimat, Case
folding, Filtering kalimat, Tokenisasi kata dan Stemming. Selanjutnya analisis Algoritma
TF-IDF dilakukan melalui serangkaian aktivitas untuk: Menghitung banyak kata dalam
kalimat, Menghitung banyak kata dalam dokumen, Menghitung nilai inverse document
frequency, Menghitungnilai bobot katadan Menghitung nilai akumulatif W untuk setiap
kalimat. Dokumen yang sudah diringkas diukur nilai bobot relevansinya dengan komentar
yang diberikan oleh peserta, sehingga dapat ditentukan kelayakan komentar tersebut untuk
tetap dipertahankan atau tidak pada forum diskusi. Pengujian blackbox dan UAT telah
memberikan hasil yang dapat menyimpulkan bahwa sistem ini layak dan dapat digunakan
untuk membantu proses monitoring diskusi online. (5 kalimat)
JURNAL 33
Berdasarkan laporan perusahaan riset We Are Social tanggal 26 Januari 2017 menyebutkan
bahwa “Indonesia sebagai jumlah pengguna internet terbesar urutan ketiga di dunia dengan
jumlah 132,7 juta”. Fitur yang ditawarkan diantaranya adalah fitur komentar, dimana
pelanggan bebas memberikan pernilaian terhadap barang yang sudah dibeli. Selain itu,
responden juga memberikan pernyataan bahwa mereka membutuhkan ringkasan komentar
dari setiap pelanggan yang melalukan transaksi dan mempertimbangkan komentar
pelanggan yang berisi kriteria smartphone yaitu memori, jaringan, kamera, simcard, dan
kemampuan konektifitas smartphone. Sentiment Analysis merupakan sebuah teknik yang
digunakan untuk menentukan kalimat positif, negatif, dan netral. Tugas utama dari
sentiment analysis adalah mengklasifikasian perbedaan pada satu kalimat atau dokumen
yang menggambarkan adanya kata sentiment positif, negatif, dan netral [3]. Fitur tf-idf
pada penelitian yang dilakukan oleh Hidayatullah, dkk [7] menghasilkan akurasi tinggi.
Pada penelitian yang dilakukan oleh Indrayani dan Wahyudi [8] menggunakan N-Gram
menunjukkan akurasi tinggi pada ekstrasi fitur three- gram dibanding dengan uni-gram dan
bi-gram. Dengan melihat penjabaran pada studi pustaka yang sudah dilakukan, peneliti
menggunakan fitur tf-idf dengan pendukung N-Gram untuk melakukan pengolahan data
komentar. Penelitian yang dilakukan ini menggunakan objek komentar pelanggan
terhadap pembelian smartphone pada e-commerce dengan kriteria tertentu. Pengambilan
data pada e-commerce tersebut dengan sesuai smartphone yang sudah dipilih dapat
dilakukan dengan proses crawling. Data yang diperoleh dari hasil crawling untuk
selanjutnya dilakukan proses preprocessing untuk mendapatkan kalimat yang lebih baik.
Proses tokenizing dilakukan untuk memisahkan atau menghapus seluruh tanda baca,
karakter, dan angka yang terdapat dalam data komentar. Proses filtering ini adalah untuk
menghapus setiap kata-kata yang tidak memiliki arti atau kata-kata yang sering muncul
pada data komentar.. Proses stemming digunakan untuk mengubah setiap kata pada data
komentar menjadi kata dasarnya. Hasil proses preprocessing selanjutnya akan diberikan
klasifikasi berdasarkan kalimat sentiment yaitu positif, negatif, dan netral. Proses
menentukan klasifikasi komentar terhadap kata dengan melihat pada kriteria memori,
jaringan, kamera, simcard, dan konektifitas pada komentar. Nilai klasifikasi pada proses
ini adalah 1 untuk positif, -1 untuk negatif, dan 0 untuk netral berdasarkan kriteria. Hasil
klasifikasi disimpan dalam database agar dapat dilakukan proses perhitungan tf,df, dan idf.
Pada penelitian ini, penghitungan tf dilakukan berdasarkan kemunculan suatu term pada
dokumen yang memiliki nilai pada masing-masing spesifikasi. Ekstrasi tf-idf dapat
digunakan untuk mengetahui nilai term kemunculan suatu kata terhadap dokumen. (20
kalimat)
Berdasarkan laporan perusahaan riset We Are Social tanggal 26 Januari 2017 menyebutkan
bahwa “Indonesia sebagai jumlah pengguna internet terbesar urutan ketiga di dunia dengan
jumlah 132,7 juta”. Fitur yang ditawarkan diantaranya adalah fitur komentar, dimana
pelanggan bebas memberikan pernilaian terhadap barang yang sudah dibeli. Selain itu,
responden juga memberikan pernyataan bahwa mereka membutuhkan ringkasan komentar
dari setiap pelanggan yang melalukan transaksi dan mempertimbangkan komentar
pelanggan yang berisi kriteria smartphone yaitu memori, jaringan, kamera, simcard, dan
kemampuan konektifitas smartphone. Tugas utama dari sentiment analysis adalah
mengklasifikasian perbedaan pada satu kalimat atau dokumen yang menggambarkan
adanya kata sentiment positif, negatif, dan netral [3]. Dengan melihat penjabaran pada
studi pustaka yang sudah dilakukan, peneliti menggunakan fitur tf-idf dengan pendukung
N-Gram untuk melakukan pengolahan data komentar. Penelitian yang dilakukan ini
menggunakan objek komentar pelanggan terhadap pembelian smartphone pada e-
commerce dengan kriteria tertentu. Pengambilan data pada e-commerce tersebut dengan
sesuai smartphone yang sudah dipilih dapat dilakukan dengan proses crawling.Nilai
klasifikasi pada proses ini adalah 1 untuk positif, -1 untuk negatif, dan 0 untuk netral
berdasarkan kriteria. Hasil klasifikasi disimpan dalam database agar dapat dilakukan
proses perhitungan tf,df, dan idf. Pada penelitian ini, penghitungan tf dilakukan berdasarkan
kemunculan suatu term pada dokumen yang memiliki nilai pada masing-masing
spesifikasi. (10 kalimat)
Berdasarkan laporan perusahaan riset We Are Social tanggal 26 Januari 2017 menyebutkan
bahwa “Indonesia sebagai jumlah pengguna internet terbesar urutan ketiga di dunia dengan
jumlah 132,7 juta”. Selain itu, responden juga memberikan pernyataan bahwa mereka
membutuhkan ringkasan komentar dari setiap pelanggan yang melalukan transaksi dan
mempertimbangkan komentar pelanggan yang berisi kriteria smartphone yaitu memori,
jaringan, kamera, simcard, dan kemampuan konektifitas smartphone. Tugas utama dari
sentiment analysis adalah mengklasifikasian perbedaan pada satu kalimat atau dokumen yang
menggambarkan adanya kata sentiment positif, negatif, dan netral [3]. .Nilai klasifikasi pada
proses ini adalah 1 untuk positif, -1 untuk negatif, dan 0 untuk netral berdasarkan kriteria.
Hasil klasifikasi disimpan dalam database agar dapat dilakukan proses perhitungan tf,df, dan
idf. (5 kalimat)
JURNAL 34
Pencarian sebuah informasi yang relevan dapat dilakukan dengan sistem temu kembali
informasi. Redundansi adalah permasalahan yang muncul pada sejumlah kalimat yang
berulang atau ganda, sehingga dibutuhkan metode yang dapat mengaitkan teks dengan query,
mengurangi tingkat redundansi dan ambiguitas dari peringkasan teks tersebut. Maximum
Marginal Relevance (MMR) merupakan salah satu metode ekstraksi ringkasan (extractive
summary) yang digunakan untuk meringkas dokumen tunggal atau multi dokumen.
Algoritme MMR meringkas teks dengan cara mengombinasikan matrik cosine similarity
antar bagian kalimat. Dalam memilih sebuah query perlu dipertimbangkan aspek
kerelevanan dokumen/kalimat dengan query, untuk mendapatkan ringkasan yang
baik. Sebuah sistem peringkas diberi masukan berupa teks, kemudian melakukan
peringkasan, dan menghasilkan keluaran berupa teks yang lebih singkat dari teks aslinya.
Sistem temu kembali informasi merupakan sistem yang digunakan untuk menemukan
informasi yang relevan dengan kebutuhan dari penggunanya secara otomatis berdasarkan
kesesuaian dengan query dari suatu koleksi informasi (Karmasya & Mahendra, 2012).
Prinsip kerja sistem temu kembali informasi jika ada sebuah kumpulan dokumen dan seorang
user yang memformulasikan sebuah pertanyaan (request atau query). Pada text mining
terdapat tahapan yang menyiapkan teks menjadi data yang akan diolah di tahapan berikutnya
yang disebut text preprocessing (Mustaqhfiri, Abidin, & Kusumawati, 2011). Vector
Space Model (VSM) adalah metode untuk melihat tingkat kedekatan atau kesamaan
(similarity) term dengan cara pembobotan term. Dokumen yang terambil disortir dalam
urutan yang memiliki kemiripan model vektor memperhitungkan pertimbangan dokumen
yang relevan dengan permintaan user. Hasilnya adalah himpunan dokumen yang
terambil jauh lebih akurat (dalam arti sesuai dengan informasi yang dibutuhkan oleh user).
Setelah tahap proses preprocessing selesai, informasi yang didapatkan adalah sekumpulan
token kata-kata penting. Metode yang paling umum digunakan adalah pembobotan TF-IDF.
MMR meringkas dokumen dengan menghitung kesamaan antara bagian teks dan dengan
tujuan mendapatkan skor kalimat berdasarkan kesamaan (similarity) dengan
query yang diberikan dan dapat mengurangi redudansi pada hasil ringkasan yang di dapat
(Goldstein, 2008). Dokumen-dokumen dalam korpus dan query dilakukan proses text
preprocessing, term weighting, normalisasi TF-IDF dan menghitung cosine similarity antara
dokumen dengan query. Kemudian dari tahapan-tahapan tersebut akan diperoleh hasil
dokumen yang diperoleh pada sistem temu kembali informasi. Setelah mendapatkan
dokumen yang diperoleh dari sistem temu kembali informasi, maka dilakukan proses
meringkas dokumen. Dari query-query diatas didapatkan hasil sistem temu kembali
informasi yang menampilkan dokumen yang paling relevan berdasarkan peringkat. Hasil
ringkasan berhasil mendapatkan kalimat yang relevan dengan isi dari dokumen dan berhasil
mengurangi redudansi dari kalimat-kalimat yang sudah dijadikan ringkasan. (20 kalimat)
Pencarian sebuah informasi yang relevan dapat dilakukan dengan sistem temu kembali
informasi. Redundansi adalah permasalahan yang muncul pada sejumlah kalimat yang
berulang atau ganda, sehingga dibutuhkan metode yang dapat mengaitkan teks dengan query,
mengurangi tingkat redundansi dan ambiguitas dari peringkasan teks tersebut. Sebuah
sistem peringkas diberi masukan berupa teks, kemudian melakukan peringkasan, dan
menghasilkan keluaran berupa teks yang lebih singkat dari teks aslinya. Sistem temu
kembali informasi merupakan sistem yang digunakan untuk menemukan informasi yang
relevan dengan kebutuhan dari penggunanya secara otomatis berdasarkan kesesuaian dengan
query dari suatu koleksi informasi (Karmasya & Mahendra, 2012). Vector Space Model
(VSM) adalah metode untuk melihat tingkat kedekatan atau kesamaan (similarity) term
dengan cara pembobotan term. Dokumen yang terambil disortir dalam urutan yang memiliki
kemiripan model vektor memperhitungkan pertimbangan dokumen yang relevan dengan
permintaan user. Hasilnya adalah himpunan dokumen yang terambil jauh lebih akurat
(dalam arti sesuai dengan informasi yang dibutuhkan oleh user). MMR meringkas
dokumen dengan menghitung kesamaan antara bagian teks dan dengan tujuan
mendapatkan skor kalimat berdasarkan kesamaan (similarity) dengan query yang
diberikan dan dapat mengurangi redudansi pada hasil ringkasan yang di dapat (Goldstein,
2008). Kemudian dari tahapan-tahapan tersebut akan diperoleh hasil dokumen yang
diperoleh pada sistem temu kembali informasi. Setelah mendapatkan dokumen yang
diperoleh dari sistem temu kembali informasi, maka dilakukan proses meringkas dokumen.
(10)
Pencarian sebuah informasi yang relevan dapat dilakukan dengan sistem temu kembali
informasi. Sebuah sistem peringkas diberi masukan berupa teks, kemudian melakukan
peringkasan, dan menghasilkan keluaran berupa teks yang lebih singkat dari teks
aslinya. Hasilnya adalah himpunan dokumen yang terambil jauh lebih akurat
(dalam arti sesuai dengan informasi yang dibutuhkan oleh user). MMR meringkas
dokumen dengan menghitung kesamaan antara bagian teks dan dengan tujuan
mendapatkan skor kalimat berdasarkan kesamaan (similarity) dengan query
yang diberikan dan dapat mengurangi redudansi pada hasil ringkasan yang di dapat
(Goldstein, 2008). Setelah mendapatkan dokumen yang diperoleh dari sistem temu
kembali informasi, maka dilakukan proses meringkas dokumen. (5)