Anda di halaman 1dari 44

Nama : Rodiyah 41143255

Kelas : S2 RPL Teknik Informatika


Tugas UAS Indigoes Data Mining

Jawaban Ujian Pertemuan Ke - 5


1. Buatlah tahapan (susunan) pengerjaan yang harus dilakukan
didalam algoritma didalam model prediksi :

Klasifikasi
Dalam data mining dikenal sebuah istilah klasifikasi, klasifikasi menurut
definisi dari sumber adalah

Classification is a data mining (machine learning) technique used to predict


group membership for data instances

Menurut definisi tsb klasifikasi adalah teknik yang dilakukan untuk


memprediksi class atau properti dari setiap instance data.

Definisi Data

Untuk mengetahui definisi dari data dalam klasifikasi mari kita lihat tabel
dibawah ini

2 2 3

1 Tua Merokok Lemah Jantung

1 Tua Tidak Merokok Agak Lemah


Jantung

Dari tabel diatas diketahui ada 3 elemen yaitu

1. instance : data itu sendiri, setiap instance akan memiliki atribut dan
class
2. atribut : atribut adalah keterangan yang dikandung dalam data itu
sendiri, setiap data bisa memiliki lebih dari 1 atribut. biasanya atribut
menggunakan variabel diskrit

3. class : class adalah status dari setiap instance, class adalah


kesimpulan dari setiap data, setiap data biasanya hanya memiliki 1
class, biasanya class menggunakan variable diskrit

nah dalam klasifikasi, permasalahan yang dihadapai adalah menentukan


class atau attribut dari suatu data yang sebelumnya belum diketahui

Tahapan

Tahapan dari klasifikasi dalam data mining terdiri dari

Pembangunan model, dalam tahapan ini dibuat sebuah model untuk


menyelesaikan masalah klasifikasi class atau attribut dalam data,
model ini dibangun berdasarkan training set-sebuah contoh data dari
permasalahan yang dihadapi, training set ini sudah mempunyai
informasi yang lengkap baik attribut maupun classnya

Penerapan model, pada tahapan ini model yang sudah dibangun


sebelumnya digunakan untuk menentukan attribut / class dari sebuah
data baru yang attribut / classnya belum diketahui sebelumnya

Evaluasi, pada tahapan ini hasil dari penerapan model pada tahapan
sebelumnya dievaluasi menggunakan parameter terukur untuk
menentukan apakah model tersebut dapat diterima

Pembangunan Model

Dalam tahapan ini dibuat sebuah model yang dapat melakukan klasifikasi
dari training data,
Jika didapatkan training data sebagai berikut

No Usia Diabetes Rajin Lajang Cakep LS ?


Berolahraga

1 Muda Tidak Ya Ya Tidak Tidak

2 Muda Tidak Tidak Ya Tidak Sedikit


3 Muda Ya Ya Ya Tidak Ya

4 Muda Ya Tidak Ya Tidak Ya

5 Mata Tidak Ya Tidak Ya Tidak


ng

6 Mata Tidak Tidak Tidak Tidak Sedikit


ng

7 Mata Ya Ya Tidak Ya Ya
ng

8 Mata Ya Tidak Ya Tidak Ya


ng

dapat diusulkan model sebagai dibawah ini. ( cara membangkitkan model


dan memilih splitting attribut akan dibahas lebih lanjut pada artikel
selanjutnya )
model 1 :
if ( diabetes = ya ) maka LS = Ya
else if ( diabetes = tidak ) {
if ( Rajin Berolahraga = Ya ) LS = Tidak
else if ( Rajin berolahraga = Tidak ) LS = Sedikit
}
yang jika dituliskan flowchartnya adalah sebagai berikut
model solusi 1

dari model tersebut, jika digunakan pada training data didapatkan


misklasifikasi sebesar 0 / 8 = 0 %
Penerapan Model
Setelah didapatkan model tersebut, model bisa diuji kepada data yang belum
terklasifikasi seperti set data dibawah ini, untuk mengetahui seberapa
efektif model terhadap kondisi nyata diberikan jawaban yang seharusnya
dijawab oleh model

No Usia Diabetes Rajin Lajang Cakep LS ? Keadaan


Berolahraga Nyata

1 Muda Tidak Ya Ya Tidak Tidak

2 Muda Tidak Tidak Ya Tidak Sedikit

3 Muda Ya Ya Ya Tidak Ya

4 Muda Ya Tidak Ya Tidak Ya

5 Matang Tidak Ya Tidak Ya Tidak


6 Matang Tidak Tidak Tidak Tidak Sedikit

7 Matang Ya Ya Tidak Ya Ya

8 Lanjut Tidak Ya Tidak Tidak Ya

setelah model digunakan, model akan memberikan jawaban sebagai berikut

No LS ? Keadaan
Nyata

1 Tidak Tidak

2 Sedikit Sedikit

3 Ya Ya

4 Ya Ya

5 Tidak Tidak

6 Sedikit Sedikit

7 Ya Ya

8 Tidak Ya

Evaluasi Model

Dari penerapan model diketahui bahwa akurasi model dibandingkan dengan


kasus nyata adalah 7/8 = 87,5 %
kesalahan klasifikasi pada nomor 8 disebabkan karena pada saat training
belum diketahui kondisi tersebut, sehingga model tidak memformulasikan
untuk kasus tersebut
Jika diketahui besaran error data yang sudah disebutkan sebelumnya, ada 2
pilihan yang bisa diambil, yaitu membuat model lain atau menerima model
tersebut- misalnya karena batasan error tersebut diterima
Untuk sementara sekian dahulu, pada pembahasan selanjutnya akan
dibahas mengenai

algoritma membangun model pohon keputusan menggunakan


beberapa algortima populer

metodelogi evaluasi model yang lebih komprehensif

Decision tree
Berikut ini merupakan contoh dari salah satu kasus resiko kredit (credit risk)
yang menggunakan decision tree untuk menentukan apakah seorang
potential customer dengan karakteristik saving, asset dan income tertentu
memiliki good credit risk atau bad credit risk.
Dapat dilihat pada gambar tersebut, bahwa target variable dari decision tree
tersebut atau variable yang akan diprediksi adalah credit risk dengan
menggunakan predictor variable : saving, asset, dan income. Setiap nilai
atribut dari predictor variable akan memiliki cabang menuju predictor
variable selanjutnya, dan seterusnya hingga tidak dapat dipecah dan menuju
pada target variable.

Penentuan apakah diteruskan menuju predictor variable (decision node) atau


menuju target variable (leaf node) tergantung pada keyakinan (knowledge)
apakah potential customer dengan nilai atribut variable keputusan tertentu
memiliki keakuratan nilai target variable 100% atau tidak. Misalnya pada
kasus di atas untuk saving medium, ternyata knowledge yang dimiliki bahwa
untuk seluruh potential customer dengan saving medium memiliki credit risk
yang baik dengan keakuratan 100%. Sedangkan untuk nilai low asset
terdapat kemungkinan good credit risk dan bad credit risk.

Jika tidak terdapat pemisahan lagi yang mungkin dilakukan, maka algoritma
decision tree akan berhenti membentuk decision node yang baru.
Seharusnya setiap branches diakhiri dengan pure leaf node, yaitu leaf
node dengan target variable yang bersifat unary untuk setiap records pada
node tersebut, di mana untuk setiap nilai predictor variable yang sama akan
memiliki nilai target variable yang sama. Tetapi, terdapat kemungkinan
decision node memiliki diverse atributes, yaitu bersifat nonunary untuk
nilai target variablenya, di mana untuk setiap record dengan nilai predictor
variable yang sama ternyata memiliki nilai target variable yang berbeda.
Kondisi tersebut menyebabkan tidak dapat dilakukan pencabangan lagi
berdasarkan nilai predictor variable. Sehingga solusinya adalah membentuk
leaf node yang disebut diverse leaf node, dengan menyatakan level
kepercayaan dari diverse leaf node tersebut. Misalnya untuk contoh data
berikut ini :

Dari training data tersebut kemudian disusunlah alternatif untuk candidate


split, sehingga setiap nilai untuk predictor variable di atas hanya membentuk
2 cabang, yaitu sebagai berikut:

Kemudian untuk setiap candidate split di atas, dihitung variabelvariabel


berikut berdasarkan training data yang dimiliki. Adapun variabelvariabel
tersebut, yaitu :
,di mana

Adapun contoh hasil perhitungannya adalah sebagai berikut :

Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai
goodness of split * (s/t) + yang terbesar, yaitu split 4 dengan nilai 0.64275.
Oleh karena itu split 4 lah yang akan digunakan pada root node, yaitu split
dengan : assets = low dengan assets = {medium, high}.
Untuk penentuan pencabangan, dapat dilihat bahwa dengan assets=low
maka didapatkan pure node leaf, yaitu bad risk (untuk record 2 dan 7).
Sedangkan untuk assets = {medium, high} masih terdapat 2 nilai, yaitu
good credit risk dan bad credit risk. Sehingga pencabangan untuk assets =
{medium, high} memiliki decision node baru. Adapun pemilihan split yang
akan digunakan, yaitu dengan menyusun perhitungan nilai (s/t) yang baru
tanpa melihat split 4, record 2 dan 7.

Demikian seterusnya hingga akhirnya dibentuk leaf node dan membentuk


decision tree yang utuh (fully grown form) seperti di bawah ini :
Sistem Pakar Diagnosa Penyakit (Kusrini)
Dalam aplikasi ini terdapat tabel-tabel sebagai berikut:

Tabel Rekam_Medis, berisi data asli rekam medis pasien

Tabel Kasus, beisi data variabel yang dapat mempengaruhi kesimpulan


diagnosis dari pasien-pasien yang ada, misalnya Jenis Kelamin, Umur,
Daerah_Tinggal, Gejala_1 s/d gejala_n, Hasil_Tes_1 s/d Hasi_Tes_n. Selain itu
dalam tabel ini juga memiliki field Hasil_Diagnosis.

Tabel Aturan, berisi aturan hasil ekstrak dari pohon keputusan.

Proses akuisisi pengetahuan yang secara biasanya dalam sistem pakar


dilakukan oleh sistem pakar, dalam sistem ini akan dillakukan dengan urutan
proses ditunjukkan pada gambar berikut:
Hasil pembentukan pohon keputusan bisa seperti pohon keputusan yang
tampak pada gambar:
Lambang
bulat pada pohon keputusan melambangkan sebagai node akar atau cabang
(bukan daun) sedangkan kotak
melambangkan node daun. Jika pengetahuan yang terbentuk beruka kaidah
produksi dengan format:
Jika Premis Maka Konklusi Node-node akar akan menjadi Premis dari aturan
sedangkan node daun akan menjadi bagian konklusinya. Dari gambar pohon
keputusan pada gambar 4, dapat dibentuk aturan sebagai berikut:

1. Jika Atr_1 = N_1


Dan Atr_2 = N_4
Dan Atr_3 = N_9
Maka H_1

2. Jika Atr_1 = N_1


Dan Atr_2 = N_4
Dan Atr_3 = N_10
Dan Atr_4 = N_11
Maka H_2

3. Jika Atr_1 = N_1


Dan Atr_2 = N_4
Dan Atr_3 = N_10
Dan Atr_4 = N_12
Maka H_2

4. Jika Atr_1 = N_1


Dan Atr_2 = N_5
Maka H_4

5. Jika Atr_1 = N_2


Maka H_5

6. Jika Atr_1 = N_3


Dan Atr_5 = N_6
Maka H_6

7. Jika Atr_1 = N_3


Dan Atr_5 = N_7
Maka H_7

8. Jika Atr_1 = N_3


Dan Atr_5 = N_8
Maka H_8

Model case based reasoning dapat digunakan sebagai metode akuisisi


pengetahuan dalam aplikasi system pakar diagnosis penyakit. Aturan yagn
dihasilkan system ini mampu digunakan untuk mendiagnosis penyakit
didasarkan pada data-data pasien. Dalam penentuan diagnosis penyakit
belum diimplementasikan derajat kepercayaan terhadap hasil diagnosis
tersebut.

Analisis Time series


Model Time Series adalah suatu peramalan nilai-nilai masa depan yang
didasarkan pada nilai-nilai masa lampau suatu variabel dan atau kesalahan
masa lampau. Model time series biasanya lebih sering digunakan untuk
suatu peramalan/prediksi. Dalam tehnik peramal an dengan time series
ada 2 kategori utama yang perlu dilakukan pengujian, yaitu pemulusan
(smoothing) dan dekomposisi (decomposition). Metode pemulusan
mendasarkan ramalannya dengan prinsip rata-rata dari kesalahan masa lalu
(Averaging smoothing past errors) dengan menambahkan nilai ramalan
sebelumnya dengan persentase kesalahan (percentage of the errors) antara
nilai sebenarnya (actual value) dengan nilai ramalannya (forecasting value).
Metoda dekomposisi mendasarkan prediksinya dengan membagi data time
series menjadi beberapa komponen dari Trend, Siklis, Musiman dan pengaruh
Random; kemudian mengkombinasikan prediksi dari komponen-komponen
tersebut (kecuali pengaruh random yang sulit diprediksi). Pendekatan lain
untuk peramalan adalah metoda causal atau yang lebih dikenal dengan
sebutan regresi. Tehnik pemulusan dan regresi akan dibahas pada sesi
tulisan yang lain.

Trend

Trend adalah keadaan data yang menaik atau menurun dari waktu ke waktu.
Ada beberapa tehnik dalam membuat model trend. Tehnik yang sering
digunakan adalah metoda kuadrat terkecil (least square method). Model
trend linier perkiraan adalah sebagai berikut:
Hasil perkiraan penjualan berdasarkan trend tidak memperhatikan adanya
pengaruh variasi musiman. Jika hasil penjualan sepatu pada kenyataannya
dipengaruhi oleh adanya variasi musiman, maka hasil perkiraan penjualan
yang hanya didasarkan oleh faktor trend menjadi kurang baik.

Variasi musiman

Salah satu komponen yang mempengaruhi data time series adalah


komponen musiman. Gerakan musiman (seasonal movement) merupakan
gerakan yang teratur artinya naik turunnya terjadi pada waktu-waktu yang
sama. Disebut gerakan musiman oleh karena terjadinya bertepatan dengan
pergantian musim didalam satu tahun atau dalam waktu yang singkat.
misal:

Harga beras akan turun pada saat musim panen padi.

Penjualan buku akan meningkat pada awal sekolah.

Jumlah pengunjung ke gedung bioskop akan naik pada malam minggu.

Jika data time series dipengaruhi oleh variasi musiman, maka diperlukan
metoda peramalan yang lebih baik yang memperhatikan keterlibatan variasi
musiman didalam data.

Untuk keperluan analisa seringkali data time series dinyatakan dalam bentuk
angka indeks. Apabila kita ingin menunjukkan ada tidaknya gerakan
musiman perlu dibuat indeks musiman (seasonal index). Indeks musiman
adalah suatu angka yang bervariasi terhadap nilai dasar 100. Jika suatu
periode musiman mempunyai nilai indeks 100, nilai ini menunjukan bahwa
pada bulan tersebut tidak ada pengaruh musiman. Ada beberapa metode
untuk menghitung angka indeks musiman, antara lain adalah metode rata-
rata sederhana (simple average method).

Mencari indeks musiman dengan metoda rata-rata sederhana

Indeks musiman dapat digunakan untuk menguraikan perkiraan/ ramalan


penjualan tahunan menjadi perkiraan penjualan per bulan pada tahun
mendatang. Untuk mencari indeks musiman dengan metode rata-rata
sederhana, pertama perlu dicari nilai rata-rata untuk setiap bulannya dengan
maksud untuk menghilangkan pengaruh trend. Berapa banyak tahun yang
digunakan untuk mendapatkan nilai rata-rata tergantung dari banyak tahun
terulangnya gerakan siklis yang maksudnya untuk menghilangkan pengaruh
dari gerakan siklis (misal: 5 tahun, 10 tahun atau lebih).

Dari nilai rata-rata tersebut selanjutnya dicari besaran persentasenya


terhadap total atau jumlah nilai rata-rata dimana jumlah nilai rata-rata
tersebut menjadi nilai 100 dalam besaran persentase. Indeks musiman
didapat dengan cara mengalikan besaran persentase masing-masing bulan
dengan konstanta 12.
Metoda Dekomposisi

Dekomposisi adalah suatu prosedur dalam menganalisa data serial waktu


dengan cara mengidentifikasi faktor-faktor komponen yang ada dalam suatu
periode data. Setiap komponen diidentifikasi secara terpisah sehingga pola
serial waktu dapat digunakan untuk peramalan kegiatan masa depan baik
untuk jangka pendek maupun jangka panjang.

Pada dasarnya ada 3 komponen yang membentuk pola suatu data serial
waktu. Ketiga komponen tersebut adalah gerakan trend, musiman
(seasonal) dan siklis (cyclical). Dekomposisi mengasumsikan bahwa data
dibentuk seperti berikut ini:

Data = Pola + Error

= fungsi (trend, musiman, siklis) + Error

Trend adalah suatu gerakan yang menunjukan arah perkembangan


(kecenderungan menaik atau menurun.
Gerakan musiman adalah suatu gerakan yang mempunyai pola
tetap dari waktu ke waktu.

Gerakan siklis adalah gerakan jangka panjang disekitar garis trend


(berlaku untuk data tahunan), gerakan siklis ini akan terulang dalam jangka
waktu tertentu atau bisa juga dalam jangka waktu yang tidak sama.

Error/irregular adalah gerakan yang sporadis atau yang tidak


tertentu. Gerakan ini ditimbulkan oleh suatu kejadian yang tak terduga
seperti perang, gempa bumi dan sebagainya.

Apabila gerakan trend, musiman, siklis dan error masing-masing diberi


simbol T, S, C dan I maka data serial waktu Y merupakan hasil kali dari 4
komponen tersebut, yaitu:

Y = T x S x C x I

Regresi
Non-linier

Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk


memprediksi kombinasi variabel-variabel masukan yang pas dengan
kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines,
polinomial).

Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline


adaptif, dan proyeksi regresi pursuit. Metodologi Berbasis-sampel
Representasi dari metodologi ini cukup sederhana: gunakan sampel dari
basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-
sampel baru diturunkan dari properti sampel-sampel yang mirip di dalam
model yang prediksinya sudah diketahui. Teknik ini misalnya adalah
klasifikasi tetanggaterdekat, algoritma regresi dan system reasoning
berbasis-kasus.

Prediksi
Penelitian Bidang Prediksi Lama Studi
Setiap mahasiswa mempunyai lama studi yang bisa sama ataupun
berbeda dengan mahasiswa lain dengan berbagai faktor penyebab. Seperti
penelitian yang dilakukan oleh Nuqson Masykur Huda, dalam penelitiannya
aplikasi data mining unutk menampilkan tingkat kelulusan mahasiswa
dengan studi kasus FMIPA Universitas Diponegoro menyebutkan bahwa data
proses masuk, asal sekolah, kota asal dan program studi menjadi
pertimbangan dalam menghitung tingkat kelulusan. Nuqson dalam
penelitiannya menggunakan metoda associasion rule serta algoritma apriori.
Dimana dalam metoda dan algoritma ini masing-masing faktor tersebut
dicari nilai support dan confidence nya sehingga akan diperoleh faktor mana
yang paling berperan atau paling mempunyai pengarauh yang cukup besar
berkaitan dengan tingkat kelulusan mahasiswa.
Sedangkan menurut Muhamad Hanief Meinanda dkk, dalam
penelitiannya tentang prediksi masa studi sarjana dengan artificial neural
network menyebutkan bahwa masa studi seorang sarjana dipengaruhi oleh
IPK, jumlah matakuliah yang diambil, jumah matakuliah yang mengulang,
jumlah matakuliah tertentu. Metoda penelitian yang digunakan merupakan
adopsi dari CRISP-DM atau Cross-Idustry Standard Process for Data Mining,
dimana di dalamnya terdapat enam fase yaitu Businnes Understanding,Data
Understanding, Data Preparation, Modeling, Evaluation dan Deployment.
Dalam. Setelah memahami masalahnya kemudian melakukan processing
data dengan membuat cross-tabulation, koreksi data yang misclasification ,
mising value maupun outlier.
1. Melakukan studi kepustakaan terhadap berbagai referensi yang berkaitan
dengan penelitian yang dilakukan. Topik-topik yang dikaji antara lain meliputi
: database, data mining, klasifikasi, dan beberapa algoritma lain yang
mungkin dapat digunakan, serta perangkat lunak yang digunakan untuk
proses mining.
2. Menyiapkan data-data yang dibutuhkan, yaitu data berkaitan dengan
identitas pribadi dari mahasiswa dan nilai matakuliah yang telah ditempuh
oleh mahasiswa hingga mencapai 146 sks dan telah dinyatakan lulus. Data
nilai matakuliah yang telah ditempuh hanya diambil sampai dengan
semester IV dan kemudian dihitung indeks prestasinya (IPK) secara kumulatif
sampai dengan semester IV.. Data ini nantinnya merupakan data training
dan testing. Mendapatkan tahun lulus dari setiap mahasiswa yang telah lulus
tadi sebagai acuan untuk menentukan criteria tepat waktu lulus atau tidak.
3. Mengolah data yang telah disiapkan menggunakan beberapa perangkat
lunak bantu seperti Excel, MySql.
4. Membuat kesimpulan dari hasil pengolahan data dan mining data yang telah
dilakukan untuk memghasilkan informasi mengenai prediksi lama studi dari
mahasiswa maupun informasi lain yang dapat digunakan sebagai bahan
analisa untuk pengambilan keputusan.

Jaringan syaraf tiruan


Definisi jaringan syaraf tiruan

Hecht-Nielsend (1988), Suatu neural network (NN), adalah suatu


struktur pemroses informasi yang terdistribusi dan bekerja secara
paralel, yang terdiri atas elemen pemroses (yang memiliki memori
lokal dan beroperasi dengan informasi lokal) yang diinterkoneksi
bersama dengan alur sinyal searah yang disebut koneksi. Setiap
elemen pemroses memiliki koneksi keluaran tunggal yang bercabang
(fan out) ke sejumlah koneksi kolateral yang diinginkan (setiap koneksi
membawa sinyal yang sama dari keluaran elemen pemroses tersebut).
Keluaran dari elemen pemroses tersebut dapat merupakan sebarang
jenis persamaan matematis yang diinginkan. Seluruh proses yang
berlangsung pada setiap elemen pemroses harus benar-benar
dilakukan secara lokal, yaitu keluaran hanya bergantung pada nilai
masukan pada saat itu yang diperoleh melalui koneksi dan nilai yang
tersimpan dalam memori lokal.

Haykin, S. (1994), Sebuah jaringan saraf adalah sebuah prosesor yang


terdistribusi paralel dan mempuyai kecenderungan untuk menyimpan
pengetahuan yang didapatkannya dari pengalaman dan membuatnya
tetap tersedia untuk digunakan. Hal ini menyerupai kerja otak dalam
dua hal yaitu: 1. Pengetahuan diperoleh oleh jaringan melalui suatu
proses belajar. 2. Kekuatan hubungan antar sel saraf yang dikenal
dengan bobot sinapsis digunakan untuk menyimpan pengetahuan.

Zurada, J.M. (1992), Sistem saraf tiruan atau jaringan saraf tiruan
adalah sistem selular fisik yang dapat memperoleh, menyimpan dan
menggunakan pengetahuan yang didapatkan dari pengalaman.

DARPA Neural Network Study (1988), Sebuah jaringan syaraf adalah


sebuah sistem yang dibentuk dari sejumlah elemen pemroses
sederhana yang bekerja secara paralel dimana fungsinya ditentukan
oleh stuktur jaringan, kekuatan hubungan, dan pegolahan dilakukan
pada komputasi elemen atau nodes

JJ Siang, sistem pemrosesan informasi yang memiliki karakteristik


mirip dengan jaringan syaraf manusia.

Asumsi Jaringan Syaraf Tiruan


Jaringan syaraf tiruan dibentuk sebagai generalisasi model matematika dari
jaringan syaraf manusia, dengan asumsi JST:

Pemrosesan terjadi pada banyak elemen yang sederhana


Sinyal dikirim diantara neuron2 melalui sinapsis

Sinapsis memiliki bobot yang akan memperkuat atau memperlemah


sinyal.

Output ditentukan menggunakan fungsi aktivasi yang dikenakan pada


jumlah input yang diterima

Output dibandingan dengan suatu tracehold.

Syaraf Biologi

Karakteristik syaraf biologi:

Jaringan Syaraf Tiruan keluar dari penelitian kecerdasan buatan,


terutama percobaan untuk menirukan fault-tolerence dan kemampuan
untuk belajar dari sistem syaraf biologi dengan model struktur low-
level dari otak.
Otak terdiri dari sekitar (10.000.000.000) sel syaraf yang saling
berhubungan.

Sel syaraf mempunyai cabang struktur input (dendrites), sebuah inti


sel dan percabangan struktur output (axon). Axon dari sebuah sel
terhubung dengan dendrites yang lain melalui sebuah synapse.

Ketika sebuah sel syaraf aktif, kemudian menimbulkan suatu signal


electrochemical pada axon. Signal ini melewati synapses menuju ke
sel syaraf yang lain.

Sebuah sel syaraf lain akan mendapatkan signal jika memenuhi


batasan tertentu yang sering disebut dengan nilai ambang atau
(threshold).

JST - Susunan Syaraf manusia


Tidak ada dua otak manusia yang sama, setiap otak selalu berbeda.
Beda dalam ketajaman, ukuran dan pengorganisasiannya. Salah satu
cara untuk memahami bagaimana otak bekerja adalah dengan
mengumpulkan informasi dari sebanyak mungkin scan otak manusia
dan memetakannya. Hal tersebut merupakan upaya untuk
menemukan cara kerja rata-rata otak manusia itu. Peta otak manusia
diharapkan dapat menjelaskan misteri mengenai bagaimana otak
mengendalikan setiap tindak tanduk manusia, mulai dari penggunaan
bahasa hingga gerakan. Walaupun demikian kepastian cara kerja otak
manusia masih merupakan suatu misteri. Meski beberapa aspek dari
prosesor yang menakjubkan ini telah diketahui tetapi itu tidaklah
banyak. Beberapa aspek-aspek tersebut, yaitu :

o Tiap bagian pada otak manusia memiliki alamat, dalam bentuk


formula kimia, dan sistem saraf manusia berusaha untuk
mendapatkan alamat yang cocok untuk setiap akson (saraf
penghubung) yang dibentuk.

o Melalui pembelajaran, pengalaman dan interaksi antara sistem


maka struktur dari otak itu sendiri akan mengatur fungsi-fungsi
dari setiap bagiannya.

o Axon-axon pada daerah yang berdekatan akan berkembang dan


mempunyai bentuk fisik mirip, sehingga terkelompok dengan
arsitektur tertentu pada otak.

o Axon berdasarkan arsitekturnya bertumbuh dalam urutan waktu,


dan terhubung pada struktur otak yang berkembang dengan
urutan waktu yang sama.

Berdasarkan keempat aspek tersebut di atas dapat ditarik suatu


kesimpulan bahwa otak tidak seluruhnya terbentuk oleh proses
genetis. Terdapat proses lain yang ikut membentuk fungsi dari bagian-
bagian otak, yang pada akhirnya menentukan bagaimana suatu
informasi diproses oleh otak.

Elemen yang paling mendasar dari jaringan saraf adalah sel saraf. Sel-
sel saraf inilah membentuk bagian kesadaran manusia yang meliputi
beberapa kemampuan umum. Pada dasarnya sel saraf biologi
menerima masukan dari sumber yang lain dan mengkombinasikannya
dengan beberapa cara, melaksanakan suatu operasi yang non-linear
untuk mendapatkan hasil dan kemudian mengeluarkan hasil akhir
tersebut.
Dalam tubuh manusia terdapat banyak variasi tipe dasar sel saraf,
sehingga proses berpikir manusia menjadi sulit untuk direplikasi secara
elektrik. Sekalipun demikian, semua sel saraf alami mempunyai empat
komponen dasar yang sama. Keempat komponen dasar ini diketahui
berdasarkan nama biologinya yaitu, dendrit, soma, akson, dan
sinapsis. Dendrit merupakan suatu perluasan dari soma yang
menyerupai rambut dan bertindak sebagai saluran masukan. Saluran
masukan ini menerima masukan dari sel saraf lainnya melalui sinapsis.
Soma dalam hal ini kemudian memproses nilai masukan menjadi
sebuah output yang kemudian dikirim ke sel saraf lainnya melalui
akson dan sinapsis.

Penelitian terbaru memberikan bukti lebih lanjut bahwa sel saraf


biologi mempunyai struktur yang lebih kompleks dan lebih canggih
daripada sel saraf buatan yang kemudian dibentuk menjadi jaringan
saraf buatan yang ada sekarang ini. Ilmu biologi menyediakan suatu
pemahaman yang lebih baik tentang sel saraf sehingga memberikan
keuntungan kepada para perancang jaringan untuk dapat terus
meningkatkan sistem jaringan saraf buatan yang ada berdasarkan
pada pemahaman terhadap otak biologi.

Sel saraf-sel saraf ini terhubung satu dengan yang lainnya melalui
sinapsis. Sel saraf dapat menerima rangsangan berupa sinyal
elektrokimiawi dari sel saraf-sel saraf yang lain. Berdasarkan
rangsangan tersebut, sel saraf akan mengirimkan sinyal atau tidak
berdasarkan kondisi tertentu. Konsep dasar semacam inilah yang ingin
dicoba para ahli dalam menciptakan sel tiruan.

Jaringan Syaraf Manusia

Struktur sangat kompleks

Kemampuan luar biasa

Terdiri dari Neuron dan Penghubung (sinapsis)

Neuron: 1012 dan Sinapsis: 6.1018

Karena jumlah yang banyak, maka mampu mengenali pola, melakukan


perhitungan dan mengontrol tubuh dengan kecepatan yang lebih tinggi
dari pada komputer digital. Ex: mampu mengenali wajah seseorang
yang sedikit berubah

Otak mempunyai struktur yang menakjubkan karena kemampuannya


membentuk sendiri aturan/aturan atau pola berdasarkan pengalaman
Jumlah dan kemampuanya berkembang seiring pertumbuhan fisik
manusia

Tahun pertama umur manusia, terbentuk 1 Juta sinapsis perdetiknya

Sejarah JST

Saat ini bidang kecerdasan buatan dalam usahanya menirukan intelegensi


manusia, belum mengadakan pendekatan dalam bentuk fisiknya melainkan
dari sisi yang lain. Pertama-tama diadakan studi mengenai teori dasar
mekanisme proses terjadinya intelegensi. Bidang ini disebut Cognitive
Science. Dari teori dasar ini dibuatlah suatu model untuk disimulasikan pada
komputer, dan dalam perkembangannya yang lebih lanjut dikenal berbagai
sistem kecerdasan buatan yang salah satunya adalah jaringan saraf tiruan.
Dibandingkan dengan bidang ilmu yang lain, jaringan saraf tiruan relatif
masih baru. Sejumlah literatur menganggap bahwa konsep jaringan saraf
tiruan bermula pada makalah Waffen McCulloch dan Walter Pitts pada tahun
1943. Dalam makalah tersebut mereka mencoba untuk memformulasikan
model matematis sel-sel otak. Metode yang dikembangkan berdasarkan
sistem saraf biologi ini, merupakan suatu langkah maju dalam industri
komputer.

Berikut perkembangan sejarah jararingan syaraf tiruan diurutkan


berdasarkan waktu:

1943, McCulloch & Pitts memperkenalkan JST sederhana.

1958, Rosenbelatt JST dengan model perceteron.

1960, Widrow dan Hoff, JST Percepteron dengan pelatihan.

1986, Rumelhart, JST Backpropagation (beberapa layer)

1976, Kohenen, JST model kohenen

1982, Hopfield, JST model Hopfield

Komponen Neuron

Dendrit, berfungsi sebagai alat input penerima impuls yang dikirim


secara elektrokimiawi oleh dari neuron lain melalui celah sinapsis. Pada
celah sinasis ini, kemudian impuls tersesbut diperkuat atau
diperlemah.

Soma, berfungsi menjumlahkan impuls-impuls yang masuk.


Axon, berfungsi menerima jumlahan impuls yang cukup kuat dan
melebihi ambang batas (trasehold) dan mengirimkannya ke neuron
yang lain.

Aplikasi Jaringan Syaraf Tiruan

Pengenalan Pola, Mengenali pola: huruf, angka, suara, tanda tangan

Pemrosesan Sinyal, merduksi noise dalam salauran telepon

Peramalam, Memprediksi yang akan terjadi pada masa depan


berdasarkan pola kejadian pada masa lampau.

Kelebihan Jaringan Syaraf Tiruan

Handal, Jaringan Syaraf Tiruan adalah teknik pemodelan yang sangat


memuaskan yang dapat membuat model suatu fungsi yang sangat
kompleks. Khususnya Jaringan Syaraf Tiruan nonlinear. Sejak
beberapa tahun, model linear umumnya digunakan dimana model
linear dikenal dengan strategi optimasi. Jaringan Syaraf Tiruan juga
menggunakanmodel nonlinear dengan berbagai variabel.

Mudah digunakan. Jaringan Syaraf Tiruan dipelajari dengan contoh.


PenggunaJaringan Syaraf Tiruan mengumpulkan data dan melakukan
pembelajaran algoritmauntuk mempelajari secara otomatis struktur
data, sehingga pengguna tidak memerlukan pengetahuan khusus
mengenai bagaimana memilih dan mempersiapkan data,
bagaimanamemilih Jaringan Syaraf Tiruan yang tepat, bagaimana
membaca hasil, tingkatanpengetahuan yang diperlukan untuk
keberhasilan Menggunakan Jaringan Syaraf Tiruantidak lebih dari
pemecahan masalah yang menggunakan metode statistik nonlinear
yangtelah dikenal.

Keterbatasn Jaringan Syaraf Tiruan

Ketidak akuratan hasil yang diperoleh

Bekerja berdasarkan pola yang terbentuk pada inputnya

2. Buatlah tahapan (susunan) pengerjaan yang harus dilakukan didalam algoritma didalam
model Deskripsi :

Klastering
Clustering Dengan Pendekatan Partisi

K-Means

Salah satu metode yang banyak digunakan dalam melakukan clustering


dengan partisi ini adalah metode k-means. Secara umum metode k-means
ini melakukan proses pengelompokan dengan prosedur sebagai berikut:

Tentukan jumlah cluster

Alokasikan data secara random ke cluster yang ada

Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya

Alokasikan kembali semua data ke cluster terdekat

Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan


yang terjadi masih sudah di bawah treshold

Prosedur dasar ini bisa berubah mengikuti pendekatan pengalokasian data


yang diterapkan, apakah crisp atau fuzzy. Setelah meneliti clustering dari
sudut yang lain, saya menemukan bahwa k-means clustering mempunyai
beberapa kelemahan.
Hal-hal terkait dengan metode k-means saya rangkum dalam tulisan saya
yang dapat di-download di sini (k-means penerapan, permasalahan dan
metode terkait).

Penjelasan lengkap tentang k-means dapat juga dilihat pada Yudi Agustas K-
Means Page.

Mixture Modelling (Mixture Modeling)

Mixture modelling (mixture modeling) merupakan metode pengelompokan


data yang mirip dengan k-means dengan kelebihan penggunaan distribusi
statistik dalam mendefinisikan setiap cluster yang ditemukan. Dibandingkan
dengan k-means yang hanya menggunakan cluster center, penggunaan
distribusi statistik ini mengijinkan kita untuk:

Memodel data yang kita miliki dengan setting karakteristik yang


berbeda-beda

Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan


seiring dengan proses pemodelan karakteristik dari masing-masing
cluster
Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat
keakuratannya

Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang


digunakan untuk data categorical sampai yang continuous, termasuk di
antaranya distribusi binomial, multinomial, normal dan lain-lain. Beberapa
distribusi yang bersifat tidak normal seperti distribusi Poisson, von-Mises,
Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai
keadaan data yang ada di lapangan. Beberapa pendekatan multivariate juga
banyak diterapkan untuk memperhitungkan tingkat keterkaitan antara
variabel data yang satu dengan yang lainnya.

Klik Yudi Agustas Mixture Modelling Page untuk penjelasan lebih rinci.

Clustering dengan Pendekatan Hirarki

Clustering dengan pendekatan hirarki mengelompokkan data yang mirip


dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada
dua metode yang sering diterapkan yaitu agglomerative hieararchical
clustering dan divisive hierarchical clustering. Agglomerative melakukan
proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N
adalah jumlah data, sedangkan divisive melakukan proses clustering yang
sebaliknya yaitu dari satu cluster menjadi N cluster.

Beberapa metode hierarchical clustering yang sering digunakan dibedakan


menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang
menggunakan Single Linkage, Complete Linkage, Average Linkage, Average
Group Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based
clustering, kita juga bisa memilih jenis jarak yang digunakan untuk
menghitung tingkat kemiripan antar data.

Salah satu cara untuk mempermudah pengembangan dendogram untuk


hierarchical clustering ini adalah dengan membuat similarity matrix yang
memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat
kemiripan bisa dihitung dengan berbagai macam cara seperti dengan
Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa
memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan
data yang dianalisa.

Clustering Dengan Pendekatan Automatic Mapping

Self-Organising Map (SOM)

Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks


yang di-training secara unsupervised. SOM menghasilkan map yang terdiri
dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha
mencari property dari input data. Komposisi input dan output dalam SOM
mirip dengan komposisi dari proses feature scaling (multidimensional
scaling).

Walaupun proses learning yang dilakukan mirip dengan Artificial Neural


Networks, tetapi proses untuk meng-assign input data ke map, lebih mirip
dengan K-Means dan kNN Algorithm. Adapun prosedur yang ditempuh dalam
melakukan clustering dengan SOM adalah sebagai berikut:

Tentukan weight dari input data secara random

Pilih salah satu input data

Hitung tingkat kesamaan (dengan Eucledian) antara input data dan


weight dari input data tersebut dan pilih input data yang memiliki
kesamaan dengan weight yang ada (data ini disebut dengan Best
Matching Unit (BMU))

Perbaharui weight dari input data dengan mendekatkan weight


tersebut ke BMU dengan rumus:

Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) Wv(t))

Dimana:

o Wv(t): Weight pada saat ke-t

o Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice


distance antara BMU dengan neuron v. Umumnya bernilai 1
untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang
sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.

o Alpha (t): Learning Coefficient yang berkurang secara monotonic

o D(t): Input data

Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah


iterasi

Variasi Metode Clustering

Quality Threshold Clustering Method

Locality Sensitive Hashing


Algoritma Rock

Hierarchical Frequent Term-Base Clustering

Suffix Tree Clustering

Single Pass Clustering

Neighborhood Clustering

Sequence Clustering

Spectral Clustering

Clustering on Frequent Tree

Latent Class Cluster Analysis a.k.a. Latent Profile Analysis a.k.a.


Mixture Model for Continuous Variabel

Latent Class Analysis a.k.a. Mixture Model for Categorical Variable

Hal-hal Terkait Dengan Clustering

Analisa Faktor

Singular Value Decomposition

Eigen Value and Eigen Vector

Similarity Measure

Feature Discretisation

Feature Selection

Feature Scaling

Indexing Method For Searching

Clustering Implementation

Document Clustering Algorithm, Document Feature Extraction


Image Clustering

Summarization

Aturan Asosiasi (Assosiation Rule)


Tahapan Metodologi Analisis Asosiasi
1. Identifikasi item ke dalam tabel
2. Menentukan Pola Frekuensi Tinggi (nilai support)
RUMUS: support(A) = Jumlah transaksi mengandung A / Total
transaksi
3. Menentukan Aturan Asosiasi
RUMUS:
confidence(A,B) = Jumlah transaksi mengandung A & B / Jumlah
transaksi mengandung A
4. Membuat Aturan Final
RUMUS : Nilai support X Nilai confidence

Nah, cukup 4 langkah aje yeeee buat ngerjain soalnyeee


hyeehehehehe.....Oke, kita masuk ke contoh soal :D
Ada soal berupa data dalam tabel seperti di bawah ini :

Nah, ini ceritanya ada 10 transaksi pembelian bahan makanan. Syaratnya :


Minimal Support = 2
Minimal Confidence = 60%
Cari deh tu Aturan Asosiasinya :D
Cara jawabnye gimane??? Yuk, kita telusuriiiii :D
JAWAB :
Kita jawabnya pake 4 langkah tadi :D

1. Identifikasi Item ke dalam Tabel

Tabel 1
Maksudnya apaan nih coooyyyy????
Oke, kita tetep bikin 10 transaksi, tapi kita jabarin lagi noh item-item yang
ada di soal tadi. Hayoooo ada berapa item di soal tadiiiii???
Yak, ada 5 item!! Ada susu, teh, gula, roti dan kopi. Masukin dah tu ke dalem
tabel, jadilah kayak tabel di atas.
Nah terus yg di checklist itu apa ya?
Ya itu kita liat aja di soal. Pada transaksi 1, ada item apa aja coba??? ada
susu, teh, gula. Ya udah deh tinggal di checklist doank. Begitu seterusnya
ampe transaksi 10 ^_____^. Nah, kalau udah jangan lupa dijumlahin dah tu
tiap kolomnya :D
------------------------------------------------------------------------------------------------------------
---------------
2 ITEM

Tabel 2
Maksudnya apa sih tu tabel???abstrak banget >,<
Oke, sabar donk. Jadi gini. Tadi kan udah kita jabarin di Tabel 1 bahwa ada 5
item yaitu susu, teh, gula, roti dan kopi. Nah, dari 5 item itu kita
kombinasikan atau gampangnya kita bikin kemungkinannya, tapi jumlahnya
2 item aja. Hasilnya seperti Tabel 2 diatas.

Terus, kok itu susu,teh ada 1...susu,gula ada 4 dst...????


1. Liat Tabel 1
2. Coba cari yang kombinasi susu,teh dari 10 transaksi...ada berapa??? 1
kan??? begitu seterusnya.

Terus, kok itu tulisannya ada yg dimerahin kenapaaa????


Nah, tadi kan di soal ada syarat Minimal Support = 2, berati kombinasi yg
kita ambil hanya yang nilainya lebih dari atau sama dengan 2, ya yg
tulisannya merah itu :D, yg lain....abaikan!!
------------------------------------------------------------------------------------------------------------
------------
3 ITEM

Tabel 3
Sebelumnya kan kita bikin kombinasi tapi hanya 2 item. Sekarang kita buat
kombinasi 3 item.
1. Liat Tabel 1
2. Cari aja di tiap transaksi yang checklist-nya ada 3. Nah, itu yang diambil
*gampangnya sih gitu*
3. jangan lupa dijumlahin :D *sama kayak yang 2 item tadi*
------------------------------------------------------------------------------------------------------------
-----------
2. Menentukan Pola Frekuensi Tinggi
2 ITEM
Tabel 4

1. Liat Tabel 2
2. Kumpulin data yang tulisannya warna merah dalam 1 tabel. Jadilah Tabel 4
3. Liat rumus support (A) di atas :D
4. susu, gula-----------4/10 = 40% ............ dapet darimana tuh??
(4 didapat dari jumlah kombinasi 'susu,gula' di Tabel 2 dan 10 didapat dari
jumlah transaksi lalu dikali 100%). Begitu seterusnya ^____^
------------------------------------------------------------------------------------------------------------
--------------
3 ITEM

Tabel 5

1. Liat Tabel 3
2. Simpen data yang tulisannya berwarna merah (Min.Support=2) ke
dalam 1 tabel. Jadilah Tabel 5.
3. Perhitungan sama seperti pada kombinasi 2 ITEM sebelumnya.
------------------------------------------------------------------------------------------------------------
------------
3. Menentukan Aturan Asosiasi
2 ITEM
Tabel 6

1. Lihat Tabel 2
2. Satu (1) Kombinasi terdiri dari 2 Aturan. Pada Tabel 2 terdiri dari 6
Kombinasi (yg Min.Supp=2), otomatis ada 12 Aturan.
Contoh: Pada Tabel 2, kombinasi 1 yaitu 'susu,gula', maka kita buat kalimat
menjadi 'Jika membeli susu maka membeli gula'. Aturan ke-2 tinggal dibalik
saja menjadi 'Jika membeli gula maka membeli susu '. Begitu seterusnya.
3. Lihat Rumus Confidence sebelumnya.
4. Jika membeli susu maka membeli gula-------------------4/6 =
67%...............dapet darimane tuh???
(4 didapat dari jumlah kombinasi 'susu,gula' pada Tabel 2 dan 6 didapat
dari jumlah transaksi pembelian susu pada Tabel 1 lalu dikali 100%)
5. Jika membeli gula maka membeli susu-------------------4/8 = 50%.........kok
bisa gitu?????
(4 tetap didapat dari jumlah kombinasi 'susu,gula' pada Tabel 2 sedangkan
8 didapat dari jumlah transaksi gula pada Tabel 1 lalu dikali 100% )
#muntahkambing
------------------------------------------------------------------------------------------------------------
----------
3 ITEM

Tabel 7

1. Karena ini 3 ITEM, jadi 1 Kombinasi terdiri dari 3 Aturan. Lihat Tabel 3
2. Pada Tabel 3, ada 'gula,kopi,susu' yg memenuhi syarat Min.Supp=2, jadi
kalimat 'Jika membeli gula+kopi maka membeli susu'. Begitu seterusnya
*kombinasikan saja*
3. Jika membeli gula+kopi maka membeli susu-----------2/3 =
67%.......pegimane caranya tuh???
(2 didapat dari jumlah kombinasi 'gula,kopi,susu' yg sudah memenuhi syarat
Min.Supp=2 pada Tabel 3 dan 3 didapat dari jumlah kombinasi gula+kopi
pada Tabel 2 lalu dikali 100% ).
4. Gitu aja terus :D
------------------------------------------------------------------------------------------------------------
-------------
4. Aturan Final

Tabel 8

1. Lihat Tabel 6 dan Tabel 7


2. Pada soal, ada syarat Minimal Confidence = 60%, jadi ambil data aturan
yang nilainya lebih atau sama dengan 60% (yg tulisannya dimerahin :D).
Masukan dalam tabel. Jadilah Tabel 8
3. Jika membeli susu maka membeli gula-------40% X 67% = 26,8%....kok
gitu???
4. Tadi kan udah dikasi rumus untuk membuat Aturan Final, yaitu Nilai
Support X Nilai Confidence
5. Tinggal dikaliin aja Nilai Support pada Tabel 4 (2 ITEM) dan Tabel 5 (3
ITEM) sama Nilai Confidence pada Tabel 6 (2 ITEM) dan Tabel 7 (3 ITEM) lalu
dibagi 100%.
6. SELESAI!!!!

Sequence Discovery
Desain arsitektur yang dibangun dalam penelitian

menghasilkan dua hasil yaitu system web trafik dan aturan

asosiasi dari pola kunjungan website

www.faperta.unja.ac.id yang dapat dilihat pada gambar 2.


Se r v e r Log da ta

Pr e pr oc e s s ing

We bs ite :

www.fa pe r ta .unja .

a c .id

U se r Kl i k

Pro g ra m L o g

Sis te m We b

Tr a f f ik

Pa tte rn An a ysi s

Pa tte rn D i sco ve ry

Gambar 3.1. Arsitektur system

Alur dari arsitektur system dalam penelitian ini yaitu,

user mengklik website www.faperta.unja.ac.id, hasil klik

pengunjung disimpan di dalam database menggunakan

browser sniffing (metode tanpa mensubmit form),

selanjutnya data yang telah disimpan di database

ditampilkan dalam bentuk web trafik secara otomatis,

yang dapat mengetahui aktivitas user yang berkunjung di

website, setelah data ditampilkan melalui web trafik,

langkah selanjutnya yaitu:

1. Tahapan Preprocessing

a. Pembersihan data

Data yang digunakan perlu dilakukan pembersihan

agar data yang akan diolah benar-benar sesuai dengan


yang dibutuhkan. Pembersihan ini dilakukan guna

meningkatkan kerja dari proses mining. Data logfile

dikelompokan berdasarkan variable penelitian dan

dikelompokan berdasarkan tanggal akses, dan apabila

user mengklik pada variable yang sama dianggap

mewakili satu transaksi. Cara pembersihan dilakukan

dengantidak mengikutsertakan atribut yang tidak

digunakan dan menghapus data yang tidak lengkap

isinya, yaitu alamat ip yang hanya mempunyai satu

transaksi, alamat ip yang mengakses pada kategori

yang sama dihitung satu transaksi, serta menghapus

alamat url yang tidak terdapat pada lampiran 2, dalam

penelitian ini peneliti mengambil data terpenting dari

log file untuk disesuaikan dengan aplikasi yang

dibangun dengan hanya mengambil data berdasarkan

halaman yang dikunjung berdasarkan alamat ip

pengunjung.

b. Seleksi data

Pada tahapan seleksi data ini, peneliti menyeleksi data,

hanya data yang digunakan dalam variabel penelitian

untuk diseleksi..

c. Tahap Transformasi Data

Tahap selanjutnya dari proses web mining yaitu

melakukan transformasi data, yang digunakan untuk

mengubah log file ke transformasi data number, yang

dapat dibaca oleh program Matlab, selanjutnya

peneliti mengelompokan konten yang diklik dengan

struktur halaman link yang telah ditentukan dalam


variable penelitian yaitu:

Main Menu =1 Beasiswa =6

Program Studi =2 weblinks =7

Campus News =3 komentar =8

E-journal =4 menu register= 9

Seputar Pertanian= 5

2. Pattern Discovery

Tahap selanjutnya dari proses web usage mining adalah

pencarian pola akses yang dilakukan oleh pengunjung,

untuk menemukan semua hubungan dan korelasi

diantara item-item data, dimana kehadiran satu item

dalam transaksi menunjukan kehadiran item yang lain-nya, pattern discovery


pada penelitian ini

menggunakan aturan asosiasi menggunakan persamaan

support dan confidence untuk mendapatkan item yang

akan dikombinasikan, untuk proses algoritma apriori di

mulai dengan langkah, menentukan file yang akan di

proses, kemudian menentukan support dan confidence

untuk membangkitkan aturan yang diinginkan yaitu

kaidah aturan asosiasi (jika maka).

3. Pattern analysis

Pattern analysis merupakan tahap terakhir dalam web

usage mining, pada tahap ini, dilakukan proses

visualisasi hasil analisis pola yang telah dilakukan

pada langkah sebelumnya. Penyajian data menjadi hal

yang penting dalam langkah ini, dimana penyajian data

tentunya tergantung pada kebutuhan user dan bisnis.

Dari hasil visualisasi tersebut, dapat dilakukan suatu


keputusan misalnya keputusan untuk mengubah

tampilan suatu website, melakukan optimasi navigasi

website, meningkatkan kemampuan website dengan

melakukan caching halaman halaman tertentu yang

sering dikunjungi.

3.2. Rancangan Perangkat Lunak

Unified Modeling Language (UML). Merupakan

system arsitektur yang bekerja dalam object Oriented

Analysis Design (OOAD) dengan satu bahasa yang

konsisten untuk menentukan, visualisasi, mengkonstruksi,

dan mendokumentasikan yang terdapat dalam system

software. Adapun UML yang dibuat mencakup diagram

use case, diagram aktifitas, dan diagram sekuen.

1. Diagram Use Case

Diagram use case mengambarkan fungsionalitas yang

diharapkan dari sebuah sistem. Sebuah use case

mempresentasikan sebuah interaksi antara actor dengan

sistem, yang digambarkan dalam bentuk diagram use case

seperti pada gambar 3.

User

L o a d D a ta

Pa ra me te r a n a l i si s

apriori
Mi n i mu m Su p p o r t

Mi n i mu m C o n fi d e n ce

Gambar 3. Diagram Use Case

Jurnal Sistem Informasi Bisnis 02(2011) On-line :


http://ejournal.undip.ac.id/index.php/jsinbis 98

2. Diagram Sequence

Diagram sequence menggambarkan interaksi antar

objek di dalam dan di sekitar sistem. Diagram sequence

digunakan untuk mengambarkan skenario atau rangkaian

langkah-langkah yang dilakukan sebagai respons dari

sebuah event untuk menghasilkan output tertentu sequence

diagram untuk aplikasi yang dikembangkan seperti pada

gambar 4.

User

A nta r m uk a

A plik a s i

D a t a A pr ior i

Pr os e s A tur a n

A s os ia s i

Vi e w An ta rmu ka Ap l i ka si
Sh o w An ta rmu ka Ap l i ka si

L o a d D a ta

Sh o w L o a d d a ta

In p u t Mi n _ su p p o r t

In p u t Mi n _ co n fi d e n ce

Sh o w Mi n _ su p p o r t

Sh o w Mi n _ co n fi d e n ce

Pe rh i tu n g a n Mi n _ su p p o r t

Pe r h i tu n g a n Mi n _ co n fi d e n ce

H a si l Atu r a n Aso si a si

Gambar 4. Diagram Sequence

3. Diagram Aktivitas

Diagram aktivitas mengambarkan berbagai aliran

aktifitas dalam sistem yang sedang dirancang, bagaimana

masing-masing berawal, keputusan yang mungkin terjadi,

dan bagaimana berakhir. Diagram aktifitas mengambarkan

proses parallel yang mungkin terjadi pada beberapa

eksekusi. Diagram aktivitas dari aplikasi yang

dikembangkan dapat dilihat pada gambar 5.

Gambar 5. Diagram Aktivitas

Anda mungkin juga menyukai