Anda di halaman 1dari 8

Nama : Fadhli Hibatul Haqqi

NPM : 140810170019

Kelas : A

Laporan Tugas Akhir Data Mining

1. Informasi Paper

Judul Paper : Using Text Mining Techniques for Extracting Information from

Research Articles

Penulis : Said A. Salloum, Mostafa Al-Emran, Azza Abdel Monem

dan Khaled Shaalan

Tahun Terbit : 2018

2. Tujuan Penelitian

Terdapat dua tujuan utama pada paper yang penulis pelajari, yaitu:

1. Menggunakan text mining untuk mengidentifikasi topik artikel penelitian

terkait ​Mobile Learning.​

2. Menggunakan tools visualisasi untuk menampilkan topik dan hubungan

antara topik-topik tersebut, untuk membantu user dalam mencari topik terkait.
Selain itu penelitian ini diharapkan dapat menjawab pertanyaan peneliti yang

sedang melakukan penelitian terkait. Pertanyaan tersebut dapat dirumuskan

sebagai berikut:

1. Keyword apa yang paling sering muncul pada artikel yang telah

dikumpulkan?

2. Istilah apa yang paling sering muncul pada artikel yang telah dikumpulkan?

3. Topik apa yang paling umum yang terdapat pada artikel yang telah

dikumpulkan?

4. Bagaimana keterkaitan antara suatu artikel dengan artikel lainnya?

3. Text Mining

Text mining dilakukan untuk mengolah data text yang semi terstruktur dan

tidak terstruktur, seperti full-text document, html document, atau email.

Langkah-langkah dalam melakukan text mining dimulai dari mengumpulkan

dokumen dari berbagai sumber. Lalu format dan kumpulan karakter pada

dokumen yang telah didapatkan tersebut akan dicek dan diolah menggunakan

instrumen text mining, tahap ini disebut juga dengan pre-processing. Setelah itu

langkah selanjutnya adalah text analysis. Text analysis akan menghasilkan

high-quality information ​dari teks yang telah dianalisis.


4. Information Extraction dan Knowledge Extraction

Information extraction pada text mining digunakan untuk mengenali ​key

phrases p​ ada dokumen. Software information extraction akan mencari dan

mencocokan teks pada dokumen dan juga teks yang telah didefinisikan. Teknik ini

disebut dengan pattern matching. Berbeda dengan information retrieval yang

mengenali dokumen yang relevan dari dokumen yang telah dikumpulkan,

information extraction akan menyiapkan data terstruktur untuk tahap

post-processing.

Sebelum melakukan knowledge extraction, information extraction dilakukan

terlebih dahulu untuk mengubah data yang tidak terstruktur menjadi data yang

lebih terstruktur. Setelah itu pengetahuan dapat diketahui dari data yang sudah

lebih terstruktur.

5. Text Mining Processing Framework

Dalam text mining terdapat tiga tahap utama, yaitu pre-processing, text

mining operation, dan post-processing.


Setelah mengumpulkan dokumen artikel terkait, akan dilakukan pre-processing

data, yang akan dibahas pada bagian selanjutnya. Setelah itu dapat dilakukan

berbagai macam teknik text mining, seperti term frequency, clustering, dan

association rule. Kemudian pada tahap ketiga yaitu post-processing akan

dilakukan evaluasi, analisis, dan visualisasi pengetahuan.


6. Mengumpulkan Data dan Pre-processing Data

Artikel yang digunakan diambil dari enam scientific database, yaitu ​Springer

Wiley​, ​Science Direct​, ​SAGE​, ​IEEE​, dan ​Cambridge.​ Kata kunci yang digunakan

untuk mencari artikel yang digunakan adalah “Mobile Learning in higher

education”. Terdapat 300 artikel yang dikumpulkan dan dibagi ke dalam folder

sesuai dengan nama asal sumber scientific database.

Pre-processing data pada penelitian ini menggunakan bantuan tool

RapidMiner​. Berikut merupakan tahapan pre-processing yang dilakukan,

Dokumen akan dipecah menjadi token. Kemudian akan dilakukan filtering stop

words bahasa inggris, kemudian dilakukan filtering token berdasarkan ukurannya.

Ukuran minimal token adalah 4 karakter sedangkan ukuran maksimalnya adalah

25 karakter.

7. Progress Tugas

Penulis menentukan untuk menggunakan RapidMiner sebagai tool yang

membantu dalam mengerjakan tugas akhir. Alasan penulis memilih RapidMiner

karena RapidMiner merupakan tool yang digunakan pada paper yang penulis

pelajari. Selain itu RapidMiner memiliki modul yang lengkap untuk melakukan

text mining, dan tool ini mudah untuk digunakan.


Penulis awalnya berencana untuk mengumpulkan data dari 6 sumber yang

dinyatakan pada paper (50 data dari masing- masing sumber), namun hanya

SAGE yang terdapat akses gratis, sehingga penulis hanya dapat mengumpulkan

dari SAGE (​https://journals.sagepub.com/​).


Data sebanyak 50 yang telah dikumpulkan, dibaca menggunakan modul

Process Document from Files,

Kemudian tahap pre-processing dilakukan sesuai tahapan yang ada pada paper.

Maka didapatkan hasil frekuensi kemunculan tiap kata pada dokumen.

Anda mungkin juga menyukai