Data Mining UAS

Laporan UAS Data Mining
Penerapan Clustering Dengan Menggunakan K-Means Pada Prediksi Pengajuan

Kredit dan Text Mining Berita Portal www.thejakartapost.com
Oleh
Abdi Praja Pratama Napilih
535120089
Program Studi Teknik Informatika

Fakultas Teknologi Informasi
Universitas Tarumanagara
Desember 2015
Soal 1
A. Pendahuluan
Software yang digunakan adalah Rapid Miner Studio Versi : 6.4.000
Unsupervised Clustering menggunakan metode dan algoritma K-Means
Data yang digunakan adalah data UTS pada pengajuan kredit Bank BRI
Kelas pada data adalah App_Status dengan total data record 8290 (6342 Reject dan 1948 Approve)
B. Landasan Teori
K-Means Clustering adalah salah algoritma yang populer dan banyak digunakan dalam
pengelompokkan data. Algoritma ini disusun atas dasar ide yang sederhana. Pada awalnya ditentukan
berapa cluster yang akan dibentuk. Sembarang objek atau elemen pertama dalam cluster dapat dipilih
untuk dijadikan titik tengah (centroid point) cluster. Pada tahapan selanjutnya Algoritma K-Means
Clustering akan melakukan pengulangan langkah sampai terjadi kesetabilan atau dengan kata lain tidak
ada objek/data yang dapat dipindahkan lagi. Beikut langkah yang dalam algoritma clustering :
a. Menentukan kordinat titik tenah setiap cluster
b. Menentukan jarak setiap objek terhadap titik tengah
c. Mengelompokkan obejk-objek tersebut berdasarkan jarak minimummnya
K-Mens Clustering dapat digunakan untuk membentuk cluster dari sebuah basis data yang
atributnya berasal dari tipe yang berbeda-beda, dengan cara mengubah atribut-atribut tersebut ke dalam
indeks similarity dan dissimilarity.
C. Data dan Preprocessing

Data yang digunakan adalah data pengajuan kredit pada bank BRI yang terdiri dari 10 atribut :
a. Jenis_Nasabah
b. Total_Pekerja
c. Pendapatan_Pertahun
d. Usia
e. Status_Pernikahan
f. Pendidikan_Terakhir
g. Kategori_Pekerjaan
h. Bidang_Usaha
i. tatus_Pekerjaan
j. Lama_Bekerja
Sedangkan kelas pada data tersebut adalah app_status yang bernilai reject dan approve.
Pada data tersebut telah dilakukan proses preprocessing, sehingga pada proses ini tidak diperlukan
lagi preprocessing. Jika dibutuhkan proses preprocessing karena data mengandung nilai yang hilang,
pengisian nilai tidak sesuai pada format atribut, dan data yang tidak masuk akal.
D. Proses Pemodelan Pada Software Rapid Miner

Langkah yang dapat digunakan untuk Clustering data pengjuan kredit BRI di software Rapid
Miner adalah sebagai berikut :
1. Buka Software Rapid Miner dan pilih new process
2. Kemudian pada repositori import file yang formatnya bersesuaian dengan kebutuhan kita (data
pengajuan kredit adalah berformat *.CSV)
3. Sesuaikan pengaturan data import dengan file yang digunakan
4. Dari 11 atribut yang ada, pilih dan atur format tipe file sesuai dengan yang ada, pengaturan
format pada data pengajuan kredit bank BRI adalah sebagai berikut
Pada App_Status digunakan format label karena ini adalah kelas pada data.
5. Simpan file proses (pada kasus ini file disimpan di repositori dan diberi nama UASDM)
6. Drag file proses pada repositori ke tab main process
7. Karena Clustering K-Means hanya bisa menerima data bertipe numeric, jadi kita akan
mengkonvert setiap atribut yang ada ke dalam sebuah format numeric. Pada Rapid Miner,
mengkonversi ke tipe data numeric tidak bisa dilakukan sekaligus, akan tetapi perlu di proses
ke dalam bentuk Text-Nominal-Numerical. Proses bar dapat dicari pada operators dan
kemudian tarik output di setiap bar proses dan hubungkan dengan input ke dalam proses bar
selanjutnya. Pemodelan konversi data dapat dilihat pada gambar di bawah ini :
8. Selanjutnya adalah proses bar Clustering K-Means, dan hubungkan output pada result.
9. Untuk proses output yang mengeksport file bisa dilakukan dengan menambahkan operator
proses bar witecsv. Hubungkan file sehingga terlihat seperti gambar dibawah ini :
10. Klik tombol proses atau bisa menekan tombol F11 pada keyboard untuk proses Clustering
Rapid Miner
E. Evaluasi Model
Kelas pada data adalah App_Status dengan total data record 8290 (6342 Reject dan 1948 Approve)
Hasil pada Clustering menunjukkan total data record 8290 (6484 Reject dan 1806 Approve)
F. Kesimpulan
Kesalahan metode Clustering yang digunakan pada data untuk menentukan status reject dan
approve tersebut dapat dihitung dengan (142/8290 ) * 100% = 1.712%. Atau dengan kata lain
ketepatan clustering dalam menentukan data pengajuan kredit adalah sebesar 98.288 %.
Soal 2
A. Pendahuluan
Media online yang digunakan
: http://www.thejakartapost.com/
Kategori berita
: National, Sports, dan Jakarta
Jumlah berita
: Masing-masing kategori adalah 10 berita
B. Tokenisasi
Tokenisasi adalah tahapan pemotongan sting input berdasarkan tiap kata yang menyusunyya. Dalam
proses ini juga membuang karakter yang dianggap sebagai tanda baca. Contoh pada prosesnya dapat
dilihat pada dibawah ini :
Berinteraksi dengan orang-orang

lokal adalah cara untuk lebih
mendalami keindahan budaya
Indonesia.
Berinteraksi
Dengan
orang
lokal
adalah
cara
untuk
lebih
mendalami
keindahan
budaya
Indonesia
C. Extraction
Ekstraksi adalah mengidentifikasikan frase kunci dan keterkaitan di dalam teks dengan melihat urutan
tertentu melalui pola.
D. Stemming
Stemming adalah tahap mencari root setiap kata pada proses setelah filtering. Pada tahap ini dilakukan
pengembalian pada kata yang berimbuhan menjadi kata dasar. Contoh pada stemming untuk text
diatas adalah pada gambar dibawah ini:

Indonesia.
interaksi
Dengan
orang
local
adalah
cara
untuk
lebih
dalam
indah
budaya
Indonesia
E. Transformation
Transformation terbagi menjadi dua, yaitu stop removal atau filtering dan stemming. Pada proses
stemming sudah dijelaskan pada poin D diatas. Jadi tahap filtering adalah tahap mengambil katakata penting dari hasil token. Pada tahapan ini bisa menggunakan algoritma stoplist (membuang
kata yang kurang penting) atau wordlist (menyimpan kata yang penting). Contoh pada text
transformation stopword removal atau filtering seperti contoh dibawah ini:

Indonesia.
interaksi
orang
lokal
cara
lebih
dalam
indah
budaya
Indonesia
F. Utility
Utility adalah program yang digunakan untuk memproses text mining. Utility menyediakan
pemrosesan dan manipulasi yang terkait di dalamnya. Contoh utility yang sering digunakan adalah
DEC Text Processing, Rapid Miner (menggunakan ekstensi), dan PTC MKS Tool Kit.
G. Pemodelan Text Processing di Rapid Miner
1. Untuk melakukan Text Processing di Rapid Miner, maka dibutuhkan ekstensi pada Software
Text Processing. Untuk mendapatkannya adalah pada menu help pilih update and extension.
Pilih top download dan pilih text processing seperti gambar dibawah ini:
2. Setelah extension pada software Rapid Miner ditentukan, maka langkah selanjutnya adalah
menyiapkan berita yang pada kasus ini diperoleh di portal berita www.thejakartapost.com
dengan pilihan kategori (Jakarta, National, dan Sports). Masing-masing kategori berita adalah
10 dan disimpan pada file berformat (.txt)
3. Pada software Rapid Miner, cari process document to file pada operator.
4. Kemudian, pilih setiap kelas dan lokasi dari file yang digunakan.
5. Setelah itu, klik dua kali pada proses bar, dan tambahkan proses Tokenize, Filter Tokens, Stem,
dan Transformation. Hubungkan input dan output dengan doc yang bersesuaian seperti gambar
dibawah ini.
6. Kemudian tambahkan proses Clustering K-Means dan hubungkan dengan result.
7. Wordlist pada 30 berita
Proses Clustering 3 kelas kategori berita :

Data Mining UAS

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining UAS

Diunggah oleh

Hak Cipta:

Format Tersedia

Laporan UAS Data Mining

Penerapan Clustering Dengan Menggunakan K-Means Pada Prediksi Pengajuan

Program Studi Teknik Informatika

C. Data dan Preprocessing

D. Proses Pemodelan Pada Software Rapid Miner

3. Sesuaikan pengaturan data import dengan file yang digunakan

6. Drag file proses pada repositori ke tab main process

: National, Sports, dan Jakarta

: Masing-masing kategori adalah 10 berita

Berinteraksi dengan orang-orang

Berinteraksi dengan orang-orang

Berinteraksi dengan orang-orang

6. Kemudian tambahkan proses Clustering K-Means dan hubungkan dengan result.

7. Wordlist pada 30 berita

Proses Clustering 3 kelas kategori berita :

Anda mungkin juga menyukai