Anda di halaman 1dari 16

LAPORAN PRAKTIKUM

BIG DATA ANALYTIC


PERTEMUAN KE-7

Disusun oleh :

Ade Candrawan Zona

(195410254)

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

AKAKOM

YOGYAKARTA

2020
DASAR TEORI

Tahap Text Preprocessing adalah tahapan dimana aplikasi melakukan seleksi data yang akan
diproses pada setiap dokumen. Proses preprocessing ini meliputi (1) case folding, (2)
tokenizing, (3) filtering, dan (4) stemming.

1. Case Folding

Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu,
peran Case Folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi
suatu bentuk standar (biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin
mendapatkan informasi “KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau
“komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”. Case folding adalah
mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’
yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.

2. Tokenizing

Tahap Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang
menyusunnya.
Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan
kata, bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah
kata atau bukan.

Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah
kata. Namun untuk karakter petik tunggal (‘), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat
memiliki peran yang cukup banyak sebagai pemisah kata.

Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek aplikasi
yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan
struktur bahasa (grammatikal).
3. Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa
menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata
penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam
pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan
seterusnya.
Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang
berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai
stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan.
Selain itu, juga dapat mengurangi level noise.
Namun terkadang stopping tidak selalu meningkatkan nilai retrieval. Pembangunan daftar
stopword (disebut stoplist) yang kurang hati-hati dapat memperburuk kinerja sistem Information
Retrieval (IR). Belum ada suatu kesimpulan pasti bahwa penggunaan stopping akan selalu
meningkatkan nilai retrieval, karena pada beberapa penelitian, hasil yang didapatkan cenderung
bervariasi.

4. Stemming

Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh
suatu Sistem Temu Kembali Informasi atau Information Retrieval System (IRS). Oleh karena itu,
dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan
menggunakan teks yang berada di dalamnya.
Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari
suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar
dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan
imbuhan yang berbeda.
Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya
yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering
tergantung pada domain bahasa yang digunakan.
Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa
Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks.
Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga
dihilangkan. Yang perlu diingat bahwa serangkaian proses diatas tidak selalu harus seperti itu.
Proses yang dilakukan dalam preprocessing sangat bervariasi dan tergantung pada kebutuhan data
anda.
PRAKTIK

1. Tahap pertama yang dilakukan adalah dengan menginstal library atau modul Sastrawi, nltk,
stopwords dan string.

Gambar 1

2. Selanjutnya lakukan pengecekkan apakah library atau modul tersebut telah terinstal tanpa
adanya eror menggunakan perintah “pyton” lalu “import”.

Gambar 2

3. Berikutnya adalah tahap preprocessing untuk data kosong dengan tujuan untuk menampilkan
sebanyak 20 data dari file insurance.csv dan semua data data3.csv dengan perintah dibawah
ini.

Gambar 3
Gambar 4 dibawah ini merupakan hasil dari running kode program pada gambar 3.

Gambar 4

4. Karena pada gambar 4 masih terdapat data kosong, sebaiknya dilakukan pengecekkan data
kosong / missing value menggunakan kode program dibawah ini.
Gambar 5

5. Selanjutnya kita membuka data3.csv menggunakan kode program dibawah ini. Data dengan
status “Nan” merupakan data kosong.

Gambar 6
6. Lalu lakukan hal yang sama untuk mengecek apakah terdapat nilai yang kosong pada data
tersebut, hasil running program akan menunjukkan berapa banyak nilai yang kosong pada
data.

Gambar 7

7. Selanjutnya jika terdapat data yang kosong kita dapat memberikan keterangan pada nilai yang
kosong dengan perintah dataset.fillna(‘#’), setelah di running maka nilai yang kosong akan
diganti dengan tanda ‘#’.

Gambar 8
8. Selanjutnya membuat dataset baru menggunakan perintah dibawah.

Gambar 9

9. Karena data dengan status “Nan” akan menjadi masalah dalam pengolahan data, oleh karena
itu dilakukan preprocessing. Misalnya dengan nilai estimasi (ukuran pusat data) berupa nilai
rata-rata untuk “Berat”.
Gambar 10

Preprocessing data untuk status “Nan” pada variabel “Tinggi”:

Gambar 11
10. Langkah terakhir adalah implementasi Case Folding, Filtering, Tokenize dan Stemming
menggunakan kode program berikut.

Gambar 12
Hasil running kode program untuk implementasi:

Gambar 13

Penjelasan method yang digunakan pada laporan:


a. Case Folding: case_folding = k.lower() → Mengubah huruf kapital yang terdapat pada
kalimat asli dengan huruf kecil semua (non kapital).
b. Filtering: fil = case_folding.translate(str.maketrans(“”,””,string.punctuation)) →
Memfilter segala jenis simbol yang terdapat pada kalimat.
c. Stemming: factory = StemmerFactory()
stemmer = factory.create_stemmer()
stemm = stemmer.stem(fill) →
d. Tokenize: tokens = word_tokenize(stemm) →
e. Stopword: stopword = set(stopwords.words(‘indonesian’)) →
LATIHAN

- Lakukan Case Folding, Filtering, Tokenize dan Stemming pada satu paragraf di suatu portal
berita!

Berikut adalah langkah-langkah yang dilakukan dalam latihan:


a. Mengunjungi website dan mennentukan pragraf yang akan dilakukan preprocessing data.
Disini saya menggunakan website Kumparan.com dan mengambil sepotong paragraf
dengan kalimat “Debryna Dewi Lumanauw merupakan salah satu dokter yang ikut
menangani pasien corona di RS Darurat Wisma Atlet Kemayoran. Ia bertugas sejak
23 Maret 2020. Hingga Selasa (31/3), rumah sakit tersebut telah menampung 413
pasien. Dengan rincian, 101 orang positif COVID-19, 232 Pasien Dalam Pengawasan
(PDP), dan 80 Orang Dalam Pemantauan (ODP).”

Gambar 14

b. Lalu gunakan kembali kode program praktikum no 10 lalu replace isi variabel ‘k’ dengan
potongan paragraf tadi.
Gambar 15
c. Lalu running kode program tersebut.

Gambar 16
KESIMPULAN

Dari praktikum mata kuliah Praktikum Big Data Analtyics kali ini dapat di ambil kesimpulan
bahwa fungsi metode preprocessing adalah untuk mengurangi tingkat kesalahan dalam pengolahan
suatu data. Tahapan dari preprocessing ini meliputi case folding, tokenizing, filtering, dan
stemming, yang mana masing-masing tahapan tersebut mempunyai fungsi tersendiri.
a. Case Folding → berfungsi dalam mengkonversi keseluruhan teks dalam dokumen menjadi
suatu bentuk standar (biasanya huruf kecil atau lowercase).
b. Tokenize → berfungsi dalam memecah sekumpulan karakter dalam suatu teks ke dalam satuan
kata.
c. Filtering → berfungsi untuk mengambil kata-kata penting dari hasil token. Bisa
menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan
kata penting).
d. Stemming → befungsi selain untuk memperkecil jumlah indeks yang berbeda dari suatu
dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan
arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan
imbuhan yang berbeda.

Anda mungkin juga menyukai