Anda di halaman 1dari 13

PEMROSESAN TEKS TIF-A

KELOMPOK [NOMOR]

Nama Kelompok :
165150218113xxx Muhammad Fahmi Wibawa
165150207113xxx Dewi Novita Sari
165150218113xxx Aulia Herdhyanti

[ANALISIS KECENDERUNGAN INFORMASI PADA


MEDIA SOSIAL TWITTER DI INDONESIA
MENGGUNAKAN METODE TERM WEIGHTING TF-IDF]

FAKULTAS ILMU KOMPUTER


UNIVERSITAS BRAWIJAYA
2016
Proposal Pemrosesan Teks 2018
DAFTAR ISI
CONTENTS

LATAR BELAKANG ................................................................................................................................. 5


RUMUSAN MASALAH ............................................................................................................................ 5
TUJUAN DAN MANFAAT ....................................................................................................................... 5
BATASAN MASALAH ............................................................................................................................. 6
TEXT MINING ......................................................................................................................................... 7
PEMBOBOTAN ....................................................................................................................................... 7
DESKRIPSI SINGKAT METODOLOGI PENGERJAAN .............................................................................. 9
ANALISA KEBUTUHAN SISTEM ............................................................................................................. 9
ANALISA KEBUTUHAN DATA ................................................................................................................ 9
METODE YANG DIGUNAKAN .............................................................................................................. 10
SKENARIO PENGUJIAN........................................................................................................................ 11
biografi kelompok ..................................................................................... Error! Bookmark not defined.
pembagian kerja ....................................................................................... Error! Bookmark not defined.
DAFTAR GAMBAR
Figure 1 : Alur Skenario Pengujian ........................................................................................................ 11
DAFTAR TABEL
PENDAHULUAN
LATAR BELAKANG
Twitter merupakan salah satu dari sekian banyak media sosial yang paling sering di kunjungi
oleh masyarakat yang ada di dunia dan digagas oleh seorang sarjana dari Universitas New York
pada bulan maret 2006. Arti kata twitter sendiri yaitu sebuah cuitan dari seekor burung yang dia
temui dan arti lain yaitu sebuah informasi singkat yang tidak penting. Tetapi arti sesungguhnya
dari twitter sendiri yaitu layanan media sosial yang ada di jejaring sosial yang berguna untuk
membagikan, mengirim, dan membaca informasi berupa pesan yang berbasis teks dengan batas
maksimal karakter yaitu 280 karakter. Berbagai macam informasi yang disebarkan oleh pengguna
melalui twitter beragam jenisnya. Mulai dari berita, cerita lucu, informasi – informasi penting yang
di berbagai belahan dunia.

Berdasarkan informasi – informasi yang telah di unggah oleh pengguna twitter, kita dapat
melakukan analisis untuk mendapatkan informasi yang sering dibicarakan atau isu yang sedang
terjadi pada waktu tertentu. Sehingga nantinya akan didapatkan suatu topik informasi atau isu
penting yang dapat didiskusikan bersama dalam suatu forum diskusi untuk mendapatkan informasi
yang benar atau mendapatkan solusi dari suatu isu, sehingga dapat menghindari berita bohong
(hoax) bagi masyarakat Indonesia.

RUMUSAN MASALAH
1. Bagaimana indexing text mining diterapkan untuk melakukan analisis survey?

2. Bagaimana metode TF – IDF diterapkan untuk melakukan analisis survey?

TUJUAN DAN MANFAAT

a. Tujuan

Tujuan umum:

Melakukan analisis untuk mencari topik pembicaraan atau isu yang sedang terjadi di
Indonesia.
Tujuan khusus:

1. Untuk mengetahui pengimplementasikan indexing text mining dalam melakukan survey


sebuah topic.

2. Untuk mengetahui pengimplementasian metode TF-IDF untuk melakukan pembobotan


dari setiap karakter dari unggahan tweet dari pengguna twetter.

b. Manfaat
Dengan dilakukannya analisis survey ini, Kita dapat mengetahui informasi atau isu yang terjadi
pada waktu tertentu yang nantinya dapat didiskusikan bersama dalam suatu forum diskusi untuk
mendapatkan informasi yang benar atau mendapatkan solusi dari suatu isu, sehingga dapat
menghindari berita bohong (hoax) bagi masyarakat Indonesia.

BATASAN MASALAH

Keluaran yang di hasilkan berupa topik atau isu yang sedang terjhadi di Indonesia dengan
menggunakan indexing text mining dan metode term weighting TF – IDF untuk melakukan
pembobotan dari masing – masing text yang muncul pada sebuah unggahan.
TINJAUAN PUSTAKA
TEXT MINING

Text mining adalah suatu ilmu yang bertujuan untuk menambang data berupa teks dimana
yang sumber datanya didapatkan dari beberapa dokumen. Tujuan dari text mining biasanya untuk
mengetahui isi dari dokumen secara cepat dan tepat.

Text mining memiliki beberapa tahapan secara umum, yaitu:


1. Tokenizing: tahap dimana dilakukannya pemotongan tiap kata pada dokumen.
2. Filtering: proses memfilter atau mengambil kata-kata yang penting dari hasil tokenizing
pada dokumen. Pada tahap ini, biasanya menggunakan algoritma stoplist (membuang
kata-kata tidak penting) atau wordlist (mengambil kata-kata yang penting).
3. Stemming: tahap untuk mencari kata dasar di tiap kata penting yang sudah difilter.
4. Tagging: tahap untuk mencari kata lampau di tiap kata yang sudah di-stemming. Jika tidak
memiliki kata lampau, tahap ini bisa dilewati saja.
5. Analyzing: menganalisis kata-kata yang sudah didapatkan dengan menentukan seberapa
jauh keterhubungan antar kata di tiap dokumen yang digunakan.

PEMBOBOTAN

Pembuat sebuah indeks, setiap kata / term memiliki bobot / nilai masing-masing. Ada banyak
metode untuk memberikan bobot pada masing-masing term pada indeks. Pada penelitian ini, term
yang telah dibentuk akan dihitung bobot kemunculannya dengan menggunakan Term Frequency-
Inverse Document Frequency (TF-IDF). Term-Frequency (TF) adalah banyaknya term yang
muncul pada dokumen, sedangkan Inverse Document Frequency (IDF) bertujuan untuk
menentukan apakah term yang sudah dicari cocok atau tidak dengan kata kunci yang sudah
ditentukan sejak awal pencarian.

TF-IDF dihitung dengan menggunakan rumus:


tf,td pada rumus di atas adalah term t dalam dokumen d yang didefinisikan sebagai jumlah
kemunculan term t pada dokumen d. Sedangkan dft adalah jumlah dokumen yang
mengandung term t.
METODOLOGI
DESKRIPSI SINGKAT METODOLOGI PENGERJAAN

Pada peneltian ini kami menggunakan indexing text mining dan metode term weighting
dengan TF-IDF. Pada data yang ada dilakukan pemrosesan text pengindeks-an untuk mendapatkan
set term indeks yang kemudian akan dijadikan sebagai perwakilan dokumen. Set term indeks yang
telah didapatkan kemudian dilakukan pembobotan per term indeks dengan menggunakan metode
TF-IDF. TF-IDF melakukan identifikasi terms penting dan kata kunci penting yang memiliki
relevansi tinggi untuk terms yang spesifik.

ANALISA KEBUTUHAN SISTEM

Adapun perangkat yang diperlukan dalam membantu penelitian ini meliputi :

1. Perangkat keras (hardware)


Pada penelitian ini digunakan sebuah perangkat komputer. Perangkat keras yang
digunakan, yaitu :
a) Laptop dengan spesifikasi
 Processor Intel® Core™ i5-4210u CPU @1.70GHz 2.40 GHz
 Memory (RAM) 4.00 GB
 WLAN-USB TP-LINK TL-WN722N
b) Mouse
c) Keyboard
2. Perangkat lunak (software)
a) Operating System Windows 8.1 Pro 64-Bit
b) Microsoft office
c) Browser : Google Chrome

ANALISA KEBUTUHAN DATA


Data yang digunkan dalam penelitian ini berupa 100 buah tweet terbaru para pengguna dengan
hastag Indonesia di media sosial twitter pada kurun waktu tertentu.

METODE YANG DIGUNAKAN

Metode yang digunakan pada penelitian ini, yaitu :

1. Text mining (indexing)

Kegiatan menambang data yang sumber datanya berupa text. Pada text mining terdapat
proses preprocesing dimana merubah text menjadi term indeks dengan melakukan langkah-
langkah tahapan tertentu.

2. Text weighting (TF-IDF)


TF-IDF adalah salah satu metode utuk memberikan bobot/nilai kepada tiap term indeks.
TF merupakan frekuensi kemunculan term pada dokumen. Langkah awal perhitungan
tersebut adalah dengan menghitung TF, kemudian menghitung DF dan IDF. Langkah
terakhir menghitung nilai TF-IDF dengan melakukan operasi perkalian TF dengan IDF.
Term Frequency (tf) factor, yaitu faktor yang menentukan bobot term pada suatu
dokumen berdasarkan jumlah kemunculannya dalam dokumen tersebut. Nilai jumlah
kemunculan suatu kata (term frequency) diperhitungkan dalam pemberian bobot terhadap
suatu kata. Semakin besar jumlah kemunculan suatu term (tf tinggi) dalam dokumen,
semakin besar pula bobotnya dalam dokumen atau akan memberikan nilai kesesuian yang
semakin besar. Inverse Document Frequency (idf) factor, yaitu pengurangan dominansi
term yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term yang banyak
muncul di berbagai dokumen, dapat dianggap sebagai term umum (common term)
sehingga tidak penting nilainya. Sebaliknya faktor kejarangmunculan kata (term scarcity)
dalam koleksi dokumen harus diperhatikan dalam pemberian bobot

DF : Document Frequency , dokumen dimana suatu term (t) muncul.

TF : Term Frequency, jumlah kemunculan term (t).


IDF : Invers Document Frequency.

TF-IDF :

SKENARIO PENGUJIAN

Alur Skenario Pengujian

Step 7 : Term
Weighting :
Step 6 : TF-IDF
Analyzing
Step 5 :
Tagging
Step 4 :
Stemming
Step 3 :
Filtering
Step 2
:Tokenizing
Step 1:
Colecting
data 100
tweets

Figure 1 : Alur Skenario Pengujian

Data berupa 100 tweets dilakukan indexing text mining pada tiap tweet, sehingga didapatkan set
term indeks yang kemudian akan dijadikan sebagai perwakilan dokumen. Set term indeks yang
telah didapatkan kemudian dilakukan pembobotan per term indeks dengan menggunakan metode
TF-IDF.
JADWAL PELAKSANAAN
ANGGOTA KELOMPOK
BIOGRAFI KELOMPOK

1. MUHAMMAD FAHMI WIBAWA 165150218113xxx


2. DEWI NOVITA SARI 165150207113xxx
3. AULIA HERDHYANTI 165150218113xxx

PEMBAGIAN KERJA

1. MUHAMMAD FAHMI WIBAWA


 PENDAHULUAN
2. DEWI NOVITA SARI
 METODOLOGI
3. AULIA HERDHYANTI
 TINJAUAN PUSTAKA

Anda mungkin juga menyukai