Anda di halaman 1dari 7

NAMA : M.

MIRZAN HIDAYAT
NPM : 5210811147
MATKUL : BIG DATA DAN DATA ANALYTIC
KUIS

1. Terdapat 3 operator (sesuai gambar), yang digunakan untuk mengerjakan


soal ini. Teks yang di blok warna kuning adalah konten dari operator “create
document”. Kerjakan, tunjukkan hasilnya, dan berikan penjelasan hasil dari
proses tersebut!
Jawab :
➢ Design

➢ Parameter Create Document

➢ Untuk parameter “tokenize dan Steam (porter) tidak perlu


diatur
➢ Result

Berdasarkan hasil analisis data yang telah dilakukan bisa dilihat bahwa
terjadi perubahan kalimat diamana kalimat pada create document yang dimasukkan
tadi, setelah dianalisis menggunakan operator Create Document => Tokenize =>
Steam (Porter). Kalimat tersebut menjadi lebih ringkas dari kalimat sebelumnya.
Untuk lebih jelasnya bias dilihat pada gambar dibawah :

Note : Kalimat berwarna yang berada di atas tersebut merupakan hasil perubahan
dari kalimat aslinya yaitu kalimat yg dibawah

2. Jika mode Tokenize menjadi specify character, jelaskan perbedaan hasilnya


dan terangkan!
Jawab :
Jadi setelah melakukan analisis pada soal no 1 faktor yang mempengaruhi
perubahn teks pada kalimat tersebut yaitu operator Tokenize, diamana
operator ini berfungsi sebagai pemecah teks menjadi token-token yang
berurutan. Contoh :
Teks 1
The appearance of the Indonesian national team during the 2020 AFF Cup made
the market price of its players increase. The Garuda squad is now the second most
expensive in Southeast Asia
Teks 2
the appear of the indonesian nation team dure the aff cup made the market price of
it player increas the garuda squad is now the second most expens in southeast asia

Jadi berdasrakan contoh diatas bisa disimpulkan bahawa operator Tokenize


menjadi specify character yang menentukan kata kata yang akan diubah, Dimana
kata yang berwarna biru dari contoh data teks 2 merupakan kata kata yang sudah
diubah atau diproses oleh operator Steam porter, operator ini merupakan operator
yang membendung kata kata bhs inggris menggunakan algoritma porter streaming
yang menerapkan penggantian surfiks kata kata berbasis aturan yang berulang
ulang dengan tujuan mengurangi panajng kata.

3. Lakukan pengambilan data dari twitter dengan hastag #kulinerjogja.


Sebutkan 10 kata terbanyak yang muncul, lakukan analisis data kuliner
yang menunya berbahan dasar nasi!
Jawab :
1) Pengambilan data di twiter

➢ Buka google chrome > Login Twitter


➢ Buka rapid miner > menggunakan operator Searce Twitter > kemudian
dibagian Repository klik kanan pada connection > pilih create connection >
dibagian connections type pilih Twitter > Beri nama sesuai keninginan di
connection name > pilih create > Dibagian Acces token pilih symbol paling
kanan warna kuning > pilih request acces token > kemudian akan dialihkan ke
google chrome > pilih Authorize app > masukkan kode yang diberikan di copy
code pada rapid miner > pilih Complate > pilih Test Connectios jika sudah Test
Succesfull pilih save.
2) Memilih data yang akan digunakan
➢ Design

➢ Parameter Search Twittert

3) Kemudian Melakukan Cleansing Data


Memilih atribut data yang akan digunakan atau dianalisis

Setelah Proses Cleansing Data Selesai selanjutnya melakukan analisis data :


➢ Melakukan pengolahan data tersebut sampai dengan pemerosesan TF-IDF (
mengetahui jumlah kemunculan kata dalam dokumen, berapa kata dalam
berapa dokumen).
➢ Design

− Retrieve data jembatan yang sudah disimpan > Operator Nominal To


Text > Operator Process Documents > Word List to Data
− Isi dari Process Document From Data

➢ Result

Dari hasil di atas ditampilkan jumlah kemunculan kata dalam document dan
jumlah kata dalam berapa dokumen, Kemudian kita akan memunculkan 10
kata terbanyak dalam hasil tersebut :
− di = 21 kali
− dan = 14 kali
− yang = 10 kali
− jogja = 9 kali
− makan = 9 kali
− nasi = 9 kali
− jam = 8 kali
− hanya = 8 kali
− wd = 8 kali
− ke = 7 kali
− buka = 6
− kt = 6
− Yogyakarta = 6
− Jt = 6
− Juga = 6
Untuk menampillkan hasil visualisasi dari jumlah kemunculan document
tersebut kita menggunakan operator Generate TF-IDF,

Berikut hasil visualisasi data tersebut :

Anda mungkin juga menyukai