Jawaban Ujian Pertemuan Ke - 5

Nama : Rodiyah 41143255
Kelas : S2 RPL Teknik Informatika

Tugas UAS Indigoes Data Mining
Jawaban Ujian Pertemuan Ke - 5

1. Buatlah tahapan (susunan) pengerjaan yang harus dilakukan
didalam algoritma didalam model prediksi :
Klasifikasi
Dalam data mining dikenal sebuah istilah klasifikasi, klasifikasi menurut
definisi dari sumber adalah
Classification is a data mining (machine learning) technique used to predict

group membership for data instances
Menurut definisi tsb klasifikasi adalah teknik yang dilakukan untuk

memprediksi class atau properti dari setiap instance data.
Definisi Data
Untuk mengetahui definisi dari data dalam klasifikasi mari kita lihat tabel
dibawah ini
2 2 3
1 Tua Merokok Lemah Jantung
1 Tua Tidak Merokok Agak Lemah

Jantung
Dari tabel diatas diketahui ada 3 elemen yaitu
1. instance : data itu sendiri, setiap instance akan memiliki atribut dan
class
2. atribut : atribut adalah keterangan yang dikandung dalam data itu
sendiri, setiap data bisa memiliki lebih dari 1 atribut. biasanya atribut
menggunakan variabel diskrit
3. class : class adalah status dari setiap instance, class adalah

kesimpulan dari setiap data, setiap data biasanya hanya memiliki 1
class, biasanya class menggunakan variable diskrit
nah dalam klasifikasi, permasalahan yang dihadapai adalah menentukan

class atau attribut dari suatu data yang sebelumnya belum diketahui
Tahapan
Tahapan dari klasifikasi dalam data mining terdiri dari
Pembangunan model, dalam tahapan ini dibuat sebuah model untuk

menyelesaikan masalah klasifikasi class atau attribut dalam data,
model ini dibangun berdasarkan training set-sebuah contoh data dari
permasalahan yang dihadapi, training set ini sudah mempunyai
informasi yang lengkap baik attribut maupun classnya
Penerapan model, pada tahapan ini model yang sudah dibangun

sebelumnya digunakan untuk menentukan attribut / class dari sebuah
data baru yang attribut / classnya belum diketahui sebelumnya
Evaluasi, pada tahapan ini hasil dari penerapan model pada tahapan
sebelumnya dievaluasi menggunakan parameter terukur untuk
menentukan apakah model tersebut dapat diterima
Pembangunan Model
Dalam tahapan ini dibuat sebuah model yang dapat melakukan klasifikasi
dari training data,
Jika didapatkan training data sebagai berikut
No Usia Diabetes Rajin Lajang Cakep LS ?

Berolahraga
1 Muda Tidak Ya Ya Tidak Tidak
2 Muda Tidak Tidak Ya Tidak Sedikit

3 Muda Ya Ya Ya Tidak Ya
4 Muda Ya Tidak Ya Tidak Ya
5 Mata Tidak Ya Tidak Ya Tidak

ng
6 Mata Tidak Tidak Tidak Tidak Sedikit

ng
7 Mata Ya Ya Tidak Ya Ya
ng
8 Mata Ya Tidak Ya Tidak Ya

ng
dapat diusulkan model sebagai dibawah ini. ( cara membangkitkan model

dan memilih splitting attribut akan dibahas lebih lanjut pada artikel
selanjutnya )
model 1 :
if ( diabetes = ya ) maka LS = Ya
else if ( diabetes = tidak ) {
if ( Rajin Berolahraga = Ya ) LS = Tidak
else if ( Rajin berolahraga = Tidak ) LS = Sedikit
}
yang jika dituliskan flowchartnya adalah sebagai berikut
model solusi 1
dari model tersebut, jika digunakan pada training data didapatkan

misklasifikasi sebesar 0 / 8 = 0 %
Penerapan Model
Setelah didapatkan model tersebut, model bisa diuji kepada data yang belum
terklasifikasi seperti set data dibawah ini, untuk mengetahui seberapa
efektif model terhadap kondisi nyata diberikan jawaban yang seharusnya
dijawab oleh model
No Usia Diabetes Rajin Lajang Cakep LS ? Keadaan

Berolahraga Nyata
1 Muda Tidak Ya Ya Tidak Tidak
2 Muda Tidak Tidak Ya Tidak Sedikit
3 Muda Ya Ya Ya Tidak Ya
4 Muda Ya Tidak Ya Tidak Ya
5 Matang Tidak Ya Tidak Ya Tidak

6 Matang Tidak Tidak Tidak Tidak Sedikit
7 Matang Ya Ya Tidak Ya Ya
8 Lanjut Tidak Ya Tidak Tidak Ya
setelah model digunakan, model akan memberikan jawaban sebagai berikut
No LS ? Keadaan
Nyata
1 Tidak Tidak
2 Sedikit Sedikit
3 Ya Ya
4 Ya Ya
5 Tidak Tidak
6 Sedikit Sedikit
7 Ya Ya
8 Tidak Ya
Evaluasi Model
Dari penerapan model diketahui bahwa akurasi model dibandingkan dengan

kasus nyata adalah 7/8 = 87,5 %
kesalahan klasifikasi pada nomor 8 disebabkan karena pada saat training
belum diketahui kondisi tersebut, sehingga model tidak memformulasikan
untuk kasus tersebut
Jika diketahui besaran error data yang sudah disebutkan sebelumnya, ada 2
pilihan yang bisa diambil, yaitu membuat model lain atau menerima model
tersebut- misalnya karena batasan error tersebut diterima
Untuk sementara sekian dahulu, pada pembahasan selanjutnya akan
dibahas mengenai
algoritma membangun model pohon keputusan menggunakan

beberapa algortima populer
metodelogi evaluasi model yang lebih komprehensif
Decision tree
Berikut ini merupakan contoh dari salah satu kasus resiko kredit (credit risk)
yang menggunakan decision tree untuk menentukan apakah seorang
potential customer dengan karakteristik saving, asset dan income tertentu
memiliki good credit risk atau bad credit risk.
Dapat dilihat pada gambar tersebut, bahwa target variable dari decision tree
tersebut atau variable yang akan diprediksi adalah credit risk dengan
menggunakan predictor variable : saving, asset, dan income. Setiap nilai
atribut dari predictor variable akan memiliki cabang menuju predictor
variable selanjutnya, dan seterusnya hingga tidak dapat dipecah dan menuju
pada target variable.
Penentuan apakah diteruskan menuju predictor variable (decision node) atau

menuju target variable (leaf node) tergantung pada keyakinan (knowledge)
apakah potential customer dengan nilai atribut variable keputusan tertentu
memiliki keakuratan nilai target variable 100% atau tidak. Misalnya pada
kasus di atas untuk saving medium, ternyata knowledge yang dimiliki bahwa
untuk seluruh potential customer dengan saving medium memiliki credit risk
yang baik dengan keakuratan 100%. Sedangkan untuk nilai low asset
terdapat kemungkinan good credit risk dan bad credit risk.
Jika tidak terdapat pemisahan lagi yang mungkin dilakukan, maka algoritma
decision tree akan berhenti membentuk decision node yang baru.
Seharusnya setiap branches diakhiri dengan pure leaf node, yaitu leaf
node dengan target variable yang bersifat unary untuk setiap records pada
node tersebut, di mana untuk setiap nilai predictor variable yang sama akan
memiliki nilai target variable yang sama. Tetapi, terdapat kemungkinan
decision node memiliki diverse atributes, yaitu bersifat nonunary untuk
nilai target variablenya, di mana untuk setiap record dengan nilai predictor
variable yang sama ternyata memiliki nilai target variable yang berbeda.
Kondisi tersebut menyebabkan tidak dapat dilakukan pencabangan lagi
berdasarkan nilai predictor variable. Sehingga solusinya adalah membentuk
leaf node yang disebut diverse leaf node, dengan menyatakan level
kepercayaan dari diverse leaf node tersebut. Misalnya untuk contoh data
berikut ini :
Dari training data tersebut kemudian disusunlah alternatif untuk candidate

split, sehingga setiap nilai untuk predictor variable di atas hanya membentuk
2 cabang, yaitu sebagai berikut:
Kemudian untuk setiap candidate split di atas, dihitung variabelvariabel

berikut berdasarkan training data yang dimiliki. Adapun variabelvariabel
tersebut, yaitu :
,di mana
Adapun contoh hasil perhitungannya adalah sebagai berikut :
Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai
goodness of split * (s/t) + yang terbesar, yaitu split 4 dengan nilai 0.64275.
Oleh karena itu split 4 lah yang akan digunakan pada root node, yaitu split
dengan : assets = low dengan assets = {medium, high}.
Untuk penentuan pencabangan, dapat dilihat bahwa dengan assets=low
maka didapatkan pure node leaf, yaitu bad risk (untuk record 2 dan 7).
Sedangkan untuk assets = {medium, high} masih terdapat 2 nilai, yaitu
good credit risk dan bad credit risk. Sehingga pencabangan untuk assets =
{medium, high} memiliki decision node baru. Adapun pemilihan split yang
akan digunakan, yaitu dengan menyusun perhitungan nilai (s/t) yang baru
tanpa melihat split 4, record 2 dan 7.
Demikian seterusnya hingga akhirnya dibentuk leaf node dan membentuk

decision tree yang utuh (fully grown form) seperti di bawah ini :
Sistem Pakar Diagnosa Penyakit (Kusrini)
Dalam aplikasi ini terdapat tabel-tabel sebagai berikut:
Tabel Rekam_Medis, berisi data asli rekam medis pasien
Tabel Kasus, beisi data variabel yang dapat mempengaruhi kesimpulan

diagnosis dari pasien-pasien yang ada, misalnya Jenis Kelamin, Umur,
Daerah_Tinggal, Gejala_1 s/d gejala_n, Hasil_Tes_1 s/d Hasi_Tes_n. Selain itu
dalam tabel ini juga memiliki field Hasil_Diagnosis.
Tabel Aturan, berisi aturan hasil ekstrak dari pohon keputusan.
Proses akuisisi pengetahuan yang secara biasanya dalam sistem pakar

dilakukan oleh sistem pakar, dalam sistem ini akan dillakukan dengan urutan
proses ditunjukkan pada gambar berikut:
Hasil pembentukan pohon keputusan bisa seperti pohon keputusan yang
tampak pada gambar:
Lambang
bulat pada pohon keputusan melambangkan sebagai node akar atau cabang
(bukan daun) sedangkan kotak
melambangkan node daun. Jika pengetahuan yang terbentuk beruka kaidah
produksi dengan format:
Jika Premis Maka Konklusi Node-node akar akan menjadi Premis dari aturan
sedangkan node daun akan menjadi bagian konklusinya. Dari gambar pohon
keputusan pada gambar 4, dapat dibentuk aturan sebagai berikut:
1. Jika Atr_1 = N_1

Dan Atr_2 = N_4
Dan Atr_3 = N_9
Maka H_1
2. Jika Atr_1 = N_1

Dan Atr_2 = N_4
Dan Atr_3 = N_10
Dan Atr_4 = N_11
Maka H_2
3. Jika Atr_1 = N_1

Dan Atr_2 = N_4
Dan Atr_3 = N_10
Dan Atr_4 = N_12
Maka H_2
4. Jika Atr_1 = N_1

Dan Atr_2 = N_5
Maka H_4
5. Jika Atr_1 = N_2

Maka H_5
6. Jika Atr_1 = N_3

Dan Atr_5 = N_6
Maka H_6
7. Jika Atr_1 = N_3

Dan Atr_5 = N_7
Maka H_7
8. Jika Atr_1 = N_3

Dan Atr_5 = N_8
Maka H_8
Model case based reasoning dapat digunakan sebagai metode akuisisi

pengetahuan dalam aplikasi system pakar diagnosis penyakit. Aturan yagn
dihasilkan system ini mampu digunakan untuk mendiagnosis penyakit
didasarkan pada data-data pasien. Dalam penentuan diagnosis penyakit
belum diimplementasikan derajat kepercayaan terhadap hasil diagnosis
tersebut.
Analisis Time series

Model Time Series adalah suatu peramalan nilai-nilai masa depan yang
didasarkan pada nilai-nilai masa lampau suatu variabel dan atau kesalahan
masa lampau. Model time series biasanya lebih sering digunakan untuk
suatu peramalan/prediksi. Dalam tehnik peramal an dengan time series
ada 2 kategori utama yang perlu dilakukan pengujian, yaitu pemulusan
(smoothing) dan dekomposisi (decomposition). Metode pemulusan
mendasarkan ramalannya dengan prinsip rata-rata dari kesalahan masa lalu
(Averaging smoothing past errors) dengan menambahkan nilai ramalan
sebelumnya dengan persentase kesalahan (percentage of the errors) antara
nilai sebenarnya (actual value) dengan nilai ramalannya (forecasting value).
Metoda dekomposisi mendasarkan prediksinya dengan membagi data time
series menjadi beberapa komponen dari Trend, Siklis, Musiman dan pengaruh
Random; kemudian mengkombinasikan prediksi dari komponen-komponen
tersebut (kecuali pengaruh random yang sulit diprediksi). Pendekatan lain
untuk peramalan adalah metoda causal atau yang lebih dikenal dengan
sebutan regresi. Tehnik pemulusan dan regresi akan dibahas pada sesi
tulisan yang lain.
Trend
Trend adalah keadaan data yang menaik atau menurun dari waktu ke waktu.
Ada beberapa tehnik dalam membuat model trend. Tehnik yang sering
digunakan adalah metoda kuadrat terkecil (least square method). Model
trend linier perkiraan adalah sebagai berikut:
Hasil perkiraan penjualan berdasarkan trend tidak memperhatikan adanya
pengaruh variasi musiman. Jika hasil penjualan sepatu pada kenyataannya
dipengaruhi oleh adanya variasi musiman, maka hasil perkiraan penjualan
yang hanya didasarkan oleh faktor trend menjadi kurang baik.
Variasi musiman
Salah satu komponen yang mempengaruhi data time series adalah

komponen musiman. Gerakan musiman (seasonal movement) merupakan
gerakan yang teratur artinya naik turunnya terjadi pada waktu-waktu yang
sama. Disebut gerakan musiman oleh karena terjadinya bertepatan dengan
pergantian musim didalam satu tahun atau dalam waktu yang singkat.
misal:
Harga beras akan turun pada saat musim panen padi.
Penjualan buku akan meningkat pada awal sekolah.
Jumlah pengunjung ke gedung bioskop akan naik pada malam minggu.
Jika data time series dipengaruhi oleh variasi musiman, maka diperlukan
metoda peramalan yang lebih baik yang memperhatikan keterlibatan variasi
musiman didalam data.
Untuk keperluan analisa seringkali data time series dinyatakan dalam bentuk
angka indeks. Apabila kita ingin menunjukkan ada tidaknya gerakan
musiman perlu dibuat indeks musiman (seasonal index). Indeks musiman
adalah suatu angka yang bervariasi terhadap nilai dasar 100. Jika suatu
periode musiman mempunyai nilai indeks 100, nilai ini menunjukan bahwa
pada bulan tersebut tidak ada pengaruh musiman. Ada beberapa metode
untuk menghitung angka indeks musiman, antara lain adalah metode rata-
rata sederhana (simple average method).
Mencari indeks musiman dengan metoda rata-rata sederhana
Indeks musiman dapat digunakan untuk menguraikan perkiraan/ ramalan

penjualan tahunan menjadi perkiraan penjualan per bulan pada tahun
mendatang. Untuk mencari indeks musiman dengan metode rata-rata
sederhana, pertama perlu dicari nilai rata-rata untuk setiap bulannya dengan
maksud untuk menghilangkan pengaruh trend. Berapa banyak tahun yang
digunakan untuk mendapatkan nilai rata-rata tergantung dari banyak tahun
terulangnya gerakan siklis yang maksudnya untuk menghilangkan pengaruh
dari gerakan siklis (misal: 5 tahun, 10 tahun atau lebih).
Dari nilai rata-rata tersebut selanjutnya dicari besaran persentasenya

terhadap total atau jumlah nilai rata-rata dimana jumlah nilai rata-rata
tersebut menjadi nilai 100 dalam besaran persentase. Indeks musiman
didapat dengan cara mengalikan besaran persentase masing-masing bulan
dengan konstanta 12.
Metoda Dekomposisi
Dekomposisi adalah suatu prosedur dalam menganalisa data serial waktu

dengan cara mengidentifikasi faktor-faktor komponen yang ada dalam suatu
periode data. Setiap komponen diidentifikasi secara terpisah sehingga pola
serial waktu dapat digunakan untuk peramalan kegiatan masa depan baik
untuk jangka pendek maupun jangka panjang.
Pada dasarnya ada 3 komponen yang membentuk pola suatu data serial
waktu. Ketiga komponen tersebut adalah gerakan trend, musiman
(seasonal) dan siklis (cyclical). Dekomposisi mengasumsikan bahwa data
dibentuk seperti berikut ini:
Data = Pola + Error
= fungsi (trend, musiman, siklis) + Error
Trend adalah suatu gerakan yang menunjukan arah perkembangan

(kecenderungan menaik atau menurun.
Gerakan musiman adalah suatu gerakan yang mempunyai pola
tetap dari waktu ke waktu.
Gerakan siklis adalah gerakan jangka panjang disekitar garis trend

(berlaku untuk data tahunan), gerakan siklis ini akan terulang dalam jangka
waktu tertentu atau bisa juga dalam jangka waktu yang tidak sama.
Error/irregular adalah gerakan yang sporadis atau yang tidak

tertentu. Gerakan ini ditimbulkan oleh suatu kejadian yang tak terduga
seperti perang, gempa bumi dan sebagainya.
Apabila gerakan trend, musiman, siklis dan error masing-masing diberi

simbol T, S, C dan I maka data serial waktu Y merupakan hasil kali dari 4
komponen tersebut, yaitu:
Y = T x S x C x I
Regresi
Non-linier
Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk

memprediksi kombinasi variabel-variabel masukan yang pas dengan
kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines,
polinomial).
Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline

adaptif, dan proyeksi regresi pursuit. Metodologi Berbasis-sampel
Representasi dari metodologi ini cukup sederhana: gunakan sampel dari
basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-
sampel baru diturunkan dari properti sampel-sampel yang mirip di dalam
model yang prediksinya sudah diketahui. Teknik ini misalnya adalah
klasifikasi tetanggaterdekat, algoritma regresi dan system reasoning
berbasis-kasus.
Prediksi
Penelitian Bidang Prediksi Lama Studi
Setiap mahasiswa mempunyai lama studi yang bisa sama ataupun
berbeda dengan mahasiswa lain dengan berbagai faktor penyebab. Seperti
penelitian yang dilakukan oleh Nuqson Masykur Huda, dalam penelitiannya
aplikasi data mining unutk menampilkan tingkat kelulusan mahasiswa
dengan studi kasus FMIPA Universitas Diponegoro menyebutkan bahwa data
proses masuk, asal sekolah, kota asal dan program studi menjadi
pertimbangan dalam menghitung tingkat kelulusan. Nuqson dalam
penelitiannya menggunakan metoda associasion rule serta algoritma apriori.
Dimana dalam metoda dan algoritma ini masing-masing faktor tersebut
dicari nilai support dan confidence nya sehingga akan diperoleh faktor mana
yang paling berperan atau paling mempunyai pengarauh yang cukup besar
berkaitan dengan tingkat kelulusan mahasiswa.
Sedangkan menurut Muhamad Hanief Meinanda dkk, dalam
penelitiannya tentang prediksi masa studi sarjana dengan artificial neural
network menyebutkan bahwa masa studi seorang sarjana dipengaruhi oleh
IPK, jumlah matakuliah yang diambil, jumah matakuliah yang mengulang,
jumlah matakuliah tertentu. Metoda penelitian yang digunakan merupakan
adopsi dari CRISP-DM atau Cross-Idustry Standard Process for Data Mining,
dimana di dalamnya terdapat enam fase yaitu Businnes Understanding,Data
Understanding, Data Preparation, Modeling, Evaluation dan Deployment.
Dalam. Setelah memahami masalahnya kemudian melakukan processing
data dengan membuat cross-tabulation, koreksi data yang misclasification ,
mising value maupun outlier.
1. Melakukan studi kepustakaan terhadap berbagai referensi yang berkaitan
dengan penelitian yang dilakukan. Topik-topik yang dikaji antara lain meliputi
: database, data mining, klasifikasi, dan beberapa algoritma lain yang
mungkin dapat digunakan, serta perangkat lunak yang digunakan untuk
proses mining.
2. Menyiapkan data-data yang dibutuhkan, yaitu data berkaitan dengan
identitas pribadi dari mahasiswa dan nilai matakuliah yang telah ditempuh
oleh mahasiswa hingga mencapai 146 sks dan telah dinyatakan lulus. Data
nilai matakuliah yang telah ditempuh hanya diambil sampai dengan
semester IV dan kemudian dihitung indeks prestasinya (IPK) secara kumulatif
sampai dengan semester IV.. Data ini nantinnya merupakan data training
dan testing. Mendapatkan tahun lulus dari setiap mahasiswa yang telah lulus
tadi sebagai acuan untuk menentukan criteria tepat waktu lulus atau tidak.
3. Mengolah data yang telah disiapkan menggunakan beberapa perangkat
lunak bantu seperti Excel, MySql.
4. Membuat kesimpulan dari hasil pengolahan data dan mining data yang telah
dilakukan untuk memghasilkan informasi mengenai prediksi lama studi dari
mahasiswa maupun informasi lain yang dapat digunakan sebagai bahan
analisa untuk pengambilan keputusan.
Jaringan syaraf tiruan

Definisi jaringan syaraf tiruan
Hecht-Nielsend (1988), Suatu neural network (NN), adalah suatu

struktur pemroses informasi yang terdistribusi dan bekerja secara
paralel, yang terdiri atas elemen pemroses (yang memiliki memori
lokal dan beroperasi dengan informasi lokal) yang diinterkoneksi
bersama dengan alur sinyal searah yang disebut koneksi. Setiap
elemen pemroses memiliki koneksi keluaran tunggal yang bercabang
(fan out) ke sejumlah koneksi kolateral yang diinginkan (setiap koneksi
membawa sinyal yang sama dari keluaran elemen pemroses tersebut).
Keluaran dari elemen pemroses tersebut dapat merupakan sebarang
jenis persamaan matematis yang diinginkan. Seluruh proses yang
berlangsung pada setiap elemen pemroses harus benar-benar
dilakukan secara lokal, yaitu keluaran hanya bergantung pada nilai
masukan pada saat itu yang diperoleh melalui koneksi dan nilai yang
tersimpan dalam memori lokal.
Haykin, S. (1994), Sebuah jaringan saraf adalah sebuah prosesor yang

terdistribusi paralel dan mempuyai kecenderungan untuk menyimpan
pengetahuan yang didapatkannya dari pengalaman dan membuatnya
tetap tersedia untuk digunakan. Hal ini menyerupai kerja otak dalam
dua hal yaitu: 1. Pengetahuan diperoleh oleh jaringan melalui suatu
proses belajar. 2. Kekuatan hubungan antar sel saraf yang dikenal
dengan bobot sinapsis digunakan untuk menyimpan pengetahuan.
Zurada, J.M. (1992), Sistem saraf tiruan atau jaringan saraf tiruan
adalah sistem selular fisik yang dapat memperoleh, menyimpan dan
menggunakan pengetahuan yang didapatkan dari pengalaman.
DARPA Neural Network Study (1988), Sebuah jaringan syaraf adalah

sebuah sistem yang dibentuk dari sejumlah elemen pemroses
sederhana yang bekerja secara paralel dimana fungsinya ditentukan
oleh stuktur jaringan, kekuatan hubungan, dan pegolahan dilakukan
pada komputasi elemen atau nodes
JJ Siang, sistem pemrosesan informasi yang memiliki karakteristik

mirip dengan jaringan syaraf manusia.
Asumsi Jaringan Syaraf Tiruan

Jaringan syaraf tiruan dibentuk sebagai generalisasi model matematika dari
jaringan syaraf manusia, dengan asumsi JST:
Pemrosesan terjadi pada banyak elemen yang sederhana

Sinyal dikirim diantara neuron2 melalui sinapsis
Sinapsis memiliki bobot yang akan memperkuat atau memperlemah

sinyal.
Output ditentukan menggunakan fungsi aktivasi yang dikenakan pada

jumlah input yang diterima
Output dibandingan dengan suatu tracehold.
Syaraf Biologi
Karakteristik syaraf biologi:
Jaringan Syaraf Tiruan keluar dari penelitian kecerdasan buatan,

terutama percobaan untuk menirukan fault-tolerence dan kemampuan
untuk belajar dari sistem syaraf biologi dengan model struktur low-
level dari otak.
Otak terdiri dari sekitar (10.000.000.000) sel syaraf yang saling
berhubungan.
Sel syaraf mempunyai cabang struktur input (dendrites), sebuah inti

sel dan percabangan struktur output (axon). Axon dari sebuah sel
terhubung dengan dendrites yang lain melalui sebuah synapse.
Ketika sebuah sel syaraf aktif, kemudian menimbulkan suatu signal

electrochemical pada axon. Signal ini melewati synapses menuju ke
sel syaraf yang lain.
Sebuah sel syaraf lain akan mendapatkan signal jika memenuhi

batasan tertentu yang sering disebut dengan nilai ambang atau
(threshold).
JST - Susunan Syaraf manusia

Tidak ada dua otak manusia yang sama, setiap otak selalu berbeda.
Beda dalam ketajaman, ukuran dan pengorganisasiannya. Salah satu
cara untuk memahami bagaimana otak bekerja adalah dengan
mengumpulkan informasi dari sebanyak mungkin scan otak manusia
dan memetakannya. Hal tersebut merupakan upaya untuk
menemukan cara kerja rata-rata otak manusia itu. Peta otak manusia
diharapkan dapat menjelaskan misteri mengenai bagaimana otak
mengendalikan setiap tindak tanduk manusia, mulai dari penggunaan
bahasa hingga gerakan. Walaupun demikian kepastian cara kerja otak
manusia masih merupakan suatu misteri. Meski beberapa aspek dari
prosesor yang menakjubkan ini telah diketahui tetapi itu tidaklah
banyak. Beberapa aspek-aspek tersebut, yaitu :
o Tiap bagian pada otak manusia memiliki alamat, dalam bentuk

formula kimia, dan sistem saraf manusia berusaha untuk
mendapatkan alamat yang cocok untuk setiap akson (saraf
penghubung) yang dibentuk.
o Melalui pembelajaran, pengalaman dan interaksi antara sistem

maka struktur dari otak itu sendiri akan mengatur fungsi-fungsi
dari setiap bagiannya.
o Axon-axon pada daerah yang berdekatan akan berkembang dan

mempunyai bentuk fisik mirip, sehingga terkelompok dengan
arsitektur tertentu pada otak.
o Axon berdasarkan arsitekturnya bertumbuh dalam urutan waktu,

dan terhubung pada struktur otak yang berkembang dengan
urutan waktu yang sama.
Berdasarkan keempat aspek tersebut di atas dapat ditarik suatu

kesimpulan bahwa otak tidak seluruhnya terbentuk oleh proses
genetis. Terdapat proses lain yang ikut membentuk fungsi dari bagian-
bagian otak, yang pada akhirnya menentukan bagaimana suatu
informasi diproses oleh otak.
Elemen yang paling mendasar dari jaringan saraf adalah sel saraf. Sel-
sel saraf inilah membentuk bagian kesadaran manusia yang meliputi
beberapa kemampuan umum. Pada dasarnya sel saraf biologi
menerima masukan dari sumber yang lain dan mengkombinasikannya
dengan beberapa cara, melaksanakan suatu operasi yang non-linear
untuk mendapatkan hasil dan kemudian mengeluarkan hasil akhir
tersebut.
Dalam tubuh manusia terdapat banyak variasi tipe dasar sel saraf,
sehingga proses berpikir manusia menjadi sulit untuk direplikasi secara
elektrik. Sekalipun demikian, semua sel saraf alami mempunyai empat
komponen dasar yang sama. Keempat komponen dasar ini diketahui
berdasarkan nama biologinya yaitu, dendrit, soma, akson, dan
sinapsis. Dendrit merupakan suatu perluasan dari soma yang
menyerupai rambut dan bertindak sebagai saluran masukan. Saluran
masukan ini menerima masukan dari sel saraf lainnya melalui sinapsis.
Soma dalam hal ini kemudian memproses nilai masukan menjadi
sebuah output yang kemudian dikirim ke sel saraf lainnya melalui
akson dan sinapsis.
Penelitian terbaru memberikan bukti lebih lanjut bahwa sel saraf

biologi mempunyai struktur yang lebih kompleks dan lebih canggih
daripada sel saraf buatan yang kemudian dibentuk menjadi jaringan
saraf buatan yang ada sekarang ini. Ilmu biologi menyediakan suatu
pemahaman yang lebih baik tentang sel saraf sehingga memberikan
keuntungan kepada para perancang jaringan untuk dapat terus
meningkatkan sistem jaringan saraf buatan yang ada berdasarkan
pada pemahaman terhadap otak biologi.
Sel saraf-sel saraf ini terhubung satu dengan yang lainnya melalui
sinapsis. Sel saraf dapat menerima rangsangan berupa sinyal
elektrokimiawi dari sel saraf-sel saraf yang lain. Berdasarkan
rangsangan tersebut, sel saraf akan mengirimkan sinyal atau tidak
berdasarkan kondisi tertentu. Konsep dasar semacam inilah yang ingin
dicoba para ahli dalam menciptakan sel tiruan.
Jaringan Syaraf Manusia
Struktur sangat kompleks
Kemampuan luar biasa
Terdiri dari Neuron dan Penghubung (sinapsis)
Neuron: 1012 dan Sinapsis: 6.1018
Karena jumlah yang banyak, maka mampu mengenali pola, melakukan

perhitungan dan mengontrol tubuh dengan kecepatan yang lebih tinggi
dari pada komputer digital. Ex: mampu mengenali wajah seseorang
yang sedikit berubah
Otak mempunyai struktur yang menakjubkan karena kemampuannya

membentuk sendiri aturan/aturan atau pola berdasarkan pengalaman
Jumlah dan kemampuanya berkembang seiring pertumbuhan fisik
manusia
Tahun pertama umur manusia, terbentuk 1 Juta sinapsis perdetiknya
Sejarah JST
Saat ini bidang kecerdasan buatan dalam usahanya menirukan intelegensi

manusia, belum mengadakan pendekatan dalam bentuk fisiknya melainkan
dari sisi yang lain. Pertama-tama diadakan studi mengenai teori dasar
mekanisme proses terjadinya intelegensi. Bidang ini disebut Cognitive
Science. Dari teori dasar ini dibuatlah suatu model untuk disimulasikan pada
komputer, dan dalam perkembangannya yang lebih lanjut dikenal berbagai
sistem kecerdasan buatan yang salah satunya adalah jaringan saraf tiruan.
Dibandingkan dengan bidang ilmu yang lain, jaringan saraf tiruan relatif
masih baru. Sejumlah literatur menganggap bahwa konsep jaringan saraf
tiruan bermula pada makalah Waffen McCulloch dan Walter Pitts pada tahun
1943. Dalam makalah tersebut mereka mencoba untuk memformulasikan
model matematis sel-sel otak. Metode yang dikembangkan berdasarkan
sistem saraf biologi ini, merupakan suatu langkah maju dalam industri
komputer.
Berikut perkembangan sejarah jararingan syaraf tiruan diurutkan

berdasarkan waktu:
1943, McCulloch & Pitts memperkenalkan JST sederhana.
1958, Rosenbelatt JST dengan model perceteron.
1960, Widrow dan Hoff, JST Percepteron dengan pelatihan.
1986, Rumelhart, JST Backpropagation (beberapa layer)
1976, Kohenen, JST model kohenen
1982, Hopfield, JST model Hopfield
Komponen Neuron
Dendrit, berfungsi sebagai alat input penerima impuls yang dikirim

secara elektrokimiawi oleh dari neuron lain melalui celah sinapsis. Pada
celah sinasis ini, kemudian impuls tersesbut diperkuat atau
diperlemah.
Soma, berfungsi menjumlahkan impuls-impuls yang masuk.

Axon, berfungsi menerima jumlahan impuls yang cukup kuat dan
melebihi ambang batas (trasehold) dan mengirimkannya ke neuron
yang lain.
Aplikasi Jaringan Syaraf Tiruan
Pengenalan Pola, Mengenali pola: huruf, angka, suara, tanda tangan
Pemrosesan Sinyal, merduksi noise dalam salauran telepon
Peramalam, Memprediksi yang akan terjadi pada masa depan

berdasarkan pola kejadian pada masa lampau.
Kelebihan Jaringan Syaraf Tiruan
Handal, Jaringan Syaraf Tiruan adalah teknik pemodelan yang sangat

memuaskan yang dapat membuat model suatu fungsi yang sangat
kompleks. Khususnya Jaringan Syaraf Tiruan nonlinear. Sejak
beberapa tahun, model linear umumnya digunakan dimana model
linear dikenal dengan strategi optimasi. Jaringan Syaraf Tiruan juga
menggunakanmodel nonlinear dengan berbagai variabel.
Mudah digunakan. Jaringan Syaraf Tiruan dipelajari dengan contoh.

PenggunaJaringan Syaraf Tiruan mengumpulkan data dan melakukan
pembelajaran algoritmauntuk mempelajari secara otomatis struktur
data, sehingga pengguna tidak memerlukan pengetahuan khusus
mengenai bagaimana memilih dan mempersiapkan data,
bagaimanamemilih Jaringan Syaraf Tiruan yang tepat, bagaimana
membaca hasil, tingkatanpengetahuan yang diperlukan untuk
keberhasilan Menggunakan Jaringan Syaraf Tiruantidak lebih dari
pemecahan masalah yang menggunakan metode statistik nonlinear
yangtelah dikenal.
Keterbatasn Jaringan Syaraf Tiruan
Ketidak akuratan hasil yang diperoleh
Bekerja berdasarkan pola yang terbentuk pada inputnya
2. Buatlah tahapan (susunan) pengerjaan yang harus dilakukan didalam algoritma didalam
model Deskripsi :
Klastering
Clustering Dengan Pendekatan Partisi
K-Means
Salah satu metode yang banyak digunakan dalam melakukan clustering

dengan partisi ini adalah metode k-means. Secara umum metode k-means
ini melakukan proses pengelompokan dengan prosedur sebagai berikut:
Tentukan jumlah cluster
Alokasikan data secara random ke cluster yang ada
Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
Alokasikan kembali semua data ke cluster terdekat
Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan

yang terjadi masih sudah di bawah treshold
Prosedur dasar ini bisa berubah mengikuti pendekatan pengalokasian data

yang diterapkan, apakah crisp atau fuzzy. Setelah meneliti clustering dari
sudut yang lain, saya menemukan bahwa k-means clustering mempunyai
beberapa kelemahan.
Hal-hal terkait dengan metode k-means saya rangkum dalam tulisan saya
yang dapat di-download di sini (k-means penerapan, permasalahan dan
metode terkait).
Penjelasan lengkap tentang k-means dapat juga dilihat pada Yudi Agustas K-
Means Page.
Mixture Modelling (Mixture Modeling)
Mixture modelling (mixture modeling) merupakan metode pengelompokan

data yang mirip dengan k-means dengan kelebihan penggunaan distribusi
statistik dalam mendefinisikan setiap cluster yang ditemukan. Dibandingkan
dengan k-means yang hanya menggunakan cluster center, penggunaan
distribusi statistik ini mengijinkan kita untuk:
Memodel data yang kita miliki dengan setting karakteristik yang

berbeda-beda
Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan

seiring dengan proses pemodelan karakteristik dari masing-masing
cluster
Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat
keakuratannya
Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang

digunakan untuk data categorical sampai yang continuous, termasuk di
antaranya distribusi binomial, multinomial, normal dan lain-lain. Beberapa
distribusi yang bersifat tidak normal seperti distribusi Poisson, von-Mises,
Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai
keadaan data yang ada di lapangan. Beberapa pendekatan multivariate juga
banyak diterapkan untuk memperhitungkan tingkat keterkaitan antara
variabel data yang satu dengan yang lainnya.
Klik Yudi Agustas Mixture Modelling Page untuk penjelasan lebih rinci.
Clustering dengan Pendekatan Hirarki
Clustering dengan pendekatan hirarki mengelompokkan data yang mirip

dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada
dua metode yang sering diterapkan yaitu agglomerative hieararchical
clustering dan divisive hierarchical clustering. Agglomerative melakukan
proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N
adalah jumlah data, sedangkan divisive melakukan proses clustering yang
sebaliknya yaitu dari satu cluster menjadi N cluster.
Beberapa metode hierarchical clustering yang sering digunakan dibedakan

menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang
menggunakan Single Linkage, Complete Linkage, Average Linkage, Average
Group Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based
clustering, kita juga bisa memilih jenis jarak yang digunakan untuk
menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendogram untuk

hierarchical clustering ini adalah dengan membuat similarity matrix yang
memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat
kemiripan bisa dihitung dengan berbagai macam cara seperti dengan
Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa
memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan
data yang dianalisa.
Clustering Dengan Pendekatan Automatic Mapping
Self-Organising Map (SOM)
Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks

yang di-training secara unsupervised. SOM menghasilkan map yang terdiri
dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha
mencari property dari input data. Komposisi input dan output dalam SOM
mirip dengan komposisi dari proses feature scaling (multidimensional
scaling).
Walaupun proses learning yang dilakukan mirip dengan Artificial Neural

Networks, tetapi proses untuk meng-assign input data ke map, lebih mirip
dengan K-Means dan kNN Algorithm. Adapun prosedur yang ditempuh dalam
melakukan clustering dengan SOM adalah sebagai berikut:
Tentukan weight dari input data secara random
Pilih salah satu input data
Hitung tingkat kesamaan (dengan Eucledian) antara input data dan

weight dari input data tersebut dan pilih input data yang memiliki
kesamaan dengan weight yang ada (data ini disebut dengan Best
Matching Unit (BMU))
Perbaharui weight dari input data dengan mendekatkan weight

tersebut ke BMU dengan rumus:
Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) Wv(t))
Dimana:
o Wv(t): Weight pada saat ke-t
o Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice

distance antara BMU dengan neuron v. Umumnya bernilai 1
untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang
sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.
o Alpha (t): Learning Coefficient yang berkurang secara monotonic
o D(t): Input data
Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah

iterasi
Variasi Metode Clustering
Quality Threshold Clustering Method
Locality Sensitive Hashing

Algoritma Rock
Hierarchical Frequent Term-Base Clustering
Suffix Tree Clustering
Single Pass Clustering
Neighborhood Clustering
Sequence Clustering
Spectral Clustering
Clustering on Frequent Tree
Latent Class Cluster Analysis a.k.a. Latent Profile Analysis a.k.a.

Mixture Model for Continuous Variabel
Latent Class Analysis a.k.a. Mixture Model for Categorical Variable
Hal-hal Terkait Dengan Clustering
Analisa Faktor
Singular Value Decomposition
Eigen Value and Eigen Vector
Similarity Measure
Feature Discretisation
Feature Selection
Feature Scaling
Indexing Method For Searching
Clustering Implementation
Document Clustering Algorithm, Document Feature Extraction

Image Clustering
Summarization
Aturan Asosiasi (Assosiation Rule)

Tahapan Metodologi Analisis Asosiasi
1. Identifikasi item ke dalam tabel
2. Menentukan Pola Frekuensi Tinggi (nilai support)
RUMUS: support(A) = Jumlah transaksi mengandung A / Total
transaksi
3. Menentukan Aturan Asosiasi
RUMUS:
confidence(A,B) = Jumlah transaksi mengandung A & B / Jumlah
transaksi mengandung A
4. Membuat Aturan Final
RUMUS : Nilai support X Nilai confidence
Nah, cukup 4 langkah aje yeeee buat ngerjain soalnyeee

hyeehehehehe.....Oke, kita masuk ke contoh soal :D
Ada soal berupa data dalam tabel seperti di bawah ini :
Nah, ini ceritanya ada 10 transaksi pembelian bahan makanan. Syaratnya :

Minimal Support = 2
Minimal Confidence = 60%
Cari deh tu Aturan Asosiasinya :D
Cara jawabnye gimane??? Yuk, kita telusuriiiii :D
JAWAB :
Kita jawabnya pake 4 langkah tadi :D
1. Identifikasi Item ke dalam Tabel
Tabel 1
Maksudnya apaan nih coooyyyy????
Oke, kita tetep bikin 10 transaksi, tapi kita jabarin lagi noh item-item yang
ada di soal tadi. Hayoooo ada berapa item di soal tadiiiii???
Yak, ada 5 item!! Ada susu, teh, gula, roti dan kopi. Masukin dah tu ke dalem
tabel, jadilah kayak tabel di atas.
Nah terus yg di checklist itu apa ya?
Ya itu kita liat aja di soal. Pada transaksi 1, ada item apa aja coba??? ada
susu, teh, gula. Ya udah deh tinggal di checklist doank. Begitu seterusnya
ampe transaksi 10 ^_____^. Nah, kalau udah jangan lupa dijumlahin dah tu
tiap kolomnya :D
------------------------------------------------------------------------------------------------------------
---------------
2 ITEM
Tabel 2
Maksudnya apa sih tu tabel???abstrak banget >,<
Oke, sabar donk. Jadi gini. Tadi kan udah kita jabarin di Tabel 1 bahwa ada 5
item yaitu susu, teh, gula, roti dan kopi. Nah, dari 5 item itu kita
kombinasikan atau gampangnya kita bikin kemungkinannya, tapi jumlahnya
2 item aja. Hasilnya seperti Tabel 2 diatas.
Terus, kok itu susu,teh ada 1...susu,gula ada 4 dst...????

1. Liat Tabel 1
2. Coba cari yang kombinasi susu,teh dari 10 transaksi...ada berapa??? 1
kan??? begitu seterusnya.
Terus, kok itu tulisannya ada yg dimerahin kenapaaa????

Nah, tadi kan di soal ada syarat Minimal Support = 2, berati kombinasi yg
kita ambil hanya yang nilainya lebih dari atau sama dengan 2, ya yg
tulisannya merah itu :D, yg lain....abaikan!!
------------------------------------------------------------------------------------------------------------
------------
3 ITEM
Tabel 3
Sebelumnya kan kita bikin kombinasi tapi hanya 2 item. Sekarang kita buat
kombinasi 3 item.
1. Liat Tabel 1
2. Cari aja di tiap transaksi yang checklist-nya ada 3. Nah, itu yang diambil
*gampangnya sih gitu*
3. jangan lupa dijumlahin :D *sama kayak yang 2 item tadi*
------------------------------------------------------------------------------------------------------------
-----------
2. Menentukan Pola Frekuensi Tinggi
2 ITEM
Tabel 4
1. Liat Tabel 2
2. Kumpulin data yang tulisannya warna merah dalam 1 tabel. Jadilah Tabel 4
3. Liat rumus support (A) di atas :D
4. susu, gula-----------4/10 = 40% ............ dapet darimana tuh??
(4 didapat dari jumlah kombinasi 'susu,gula' di Tabel 2 dan 10 didapat dari
jumlah transaksi lalu dikali 100%). Begitu seterusnya ^____^
------------------------------------------------------------------------------------------------------------
--------------
3 ITEM
Tabel 5
1. Liat Tabel 3
2. Simpen data yang tulisannya berwarna merah (Min.Support=2) ke
dalam 1 tabel. Jadilah Tabel 5.
3. Perhitungan sama seperti pada kombinasi 2 ITEM sebelumnya.
------------------------------------------------------------------------------------------------------------
------------
3. Menentukan Aturan Asosiasi
2 ITEM
Tabel 6
1. Lihat Tabel 2
2. Satu (1) Kombinasi terdiri dari 2 Aturan. Pada Tabel 2 terdiri dari 6
Kombinasi (yg Min.Supp=2), otomatis ada 12 Aturan.
Contoh: Pada Tabel 2, kombinasi 1 yaitu 'susu,gula', maka kita buat kalimat
menjadi 'Jika membeli susu maka membeli gula'. Aturan ke-2 tinggal dibalik
saja menjadi 'Jika membeli gula maka membeli susu '. Begitu seterusnya.
3. Lihat Rumus Confidence sebelumnya.
4. Jika membeli susu maka membeli gula-------------------4/6 =
67%...............dapet darimane tuh???
(4 didapat dari jumlah kombinasi 'susu,gula' pada Tabel 2 dan 6 didapat
dari jumlah transaksi pembelian susu pada Tabel 1 lalu dikali 100%)
5. Jika membeli gula maka membeli susu-------------------4/8 = 50%.........kok
bisa gitu?????
(4 tetap didapat dari jumlah kombinasi 'susu,gula' pada Tabel 2 sedangkan
8 didapat dari jumlah transaksi gula pada Tabel 1 lalu dikali 100% )
#muntahkambing
------------------------------------------------------------------------------------------------------------
----------
3 ITEM
Tabel 7
1. Karena ini 3 ITEM, jadi 1 Kombinasi terdiri dari 3 Aturan. Lihat Tabel 3
2. Pada Tabel 3, ada 'gula,kopi,susu' yg memenuhi syarat Min.Supp=2, jadi
kalimat 'Jika membeli gula+kopi maka membeli susu'. Begitu seterusnya
*kombinasikan saja*
3. Jika membeli gula+kopi maka membeli susu-----------2/3 =
67%.......pegimane caranya tuh???
(2 didapat dari jumlah kombinasi 'gula,kopi,susu' yg sudah memenuhi syarat
Min.Supp=2 pada Tabel 3 dan 3 didapat dari jumlah kombinasi gula+kopi
pada Tabel 2 lalu dikali 100% ).
4. Gitu aja terus :D
------------------------------------------------------------------------------------------------------------
-------------
4. Aturan Final
Tabel 8
1. Lihat Tabel 6 dan Tabel 7

2. Pada soal, ada syarat Minimal Confidence = 60%, jadi ambil data aturan
yang nilainya lebih atau sama dengan 60% (yg tulisannya dimerahin :D).
Masukan dalam tabel. Jadilah Tabel 8
3. Jika membeli susu maka membeli gula-------40% X 67% = 26,8%....kok
gitu???
4. Tadi kan udah dikasi rumus untuk membuat Aturan Final, yaitu Nilai
Support X Nilai Confidence
5. Tinggal dikaliin aja Nilai Support pada Tabel 4 (2 ITEM) dan Tabel 5 (3
ITEM) sama Nilai Confidence pada Tabel 6 (2 ITEM) dan Tabel 7 (3 ITEM) lalu
dibagi 100%.
6. SELESAI!!!!
Sequence Discovery
Desain arsitektur yang dibangun dalam penelitian
menghasilkan dua hasil yaitu system web trafik dan aturan
asosiasi dari pola kunjungan website
www.faperta.unja.ac.id yang dapat dilihat pada gambar 2.

Se r v e r Log da ta
Pr e pr oc e s s ing
We bs ite :
www.fa pe r ta .unja .
a c .id
U se r Kl i k
Pro g ra m L o g
Sis te m We b
Tr a f f ik
Pa tte rn An a ysi s
Pa tte rn D i sco ve ry
Gambar 3.1. Arsitektur system
Alur dari arsitektur system dalam penelitian ini yaitu,
user mengklik website www.faperta.unja.ac.id, hasil klik
pengunjung disimpan di dalam database menggunakan
browser sniffing (metode tanpa mensubmit form),
selanjutnya data yang telah disimpan di database
ditampilkan dalam bentuk web trafik secara otomatis,
yang dapat mengetahui aktivitas user yang berkunjung di
website, setelah data ditampilkan melalui web trafik,
langkah selanjutnya yaitu:
1. Tahapan Preprocessing
a. Pembersihan data
Data yang digunakan perlu dilakukan pembersihan
agar data yang akan diolah benar-benar sesuai dengan

yang dibutuhkan. Pembersihan ini dilakukan guna
meningkatkan kerja dari proses mining. Data logfile
dikelompokan berdasarkan variable penelitian dan
dikelompokan berdasarkan tanggal akses, dan apabila
user mengklik pada variable yang sama dianggap
mewakili satu transaksi. Cara pembersihan dilakukan
dengantidak mengikutsertakan atribut yang tidak
digunakan dan menghapus data yang tidak lengkap
isinya, yaitu alamat ip yang hanya mempunyai satu
transaksi, alamat ip yang mengakses pada kategori
yang sama dihitung satu transaksi, serta menghapus
alamat url yang tidak terdapat pada lampiran 2, dalam
penelitian ini peneliti mengambil data terpenting dari
log file untuk disesuaikan dengan aplikasi yang
dibangun dengan hanya mengambil data berdasarkan
halaman yang dikunjung berdasarkan alamat ip
pengunjung.
b. Seleksi data
Pada tahapan seleksi data ini, peneliti menyeleksi data,
hanya data yang digunakan dalam variabel penelitian
untuk diseleksi..
c. Tahap Transformasi Data
Tahap selanjutnya dari proses web mining yaitu
melakukan transformasi data, yang digunakan untuk
mengubah log file ke transformasi data number, yang
dapat dibaca oleh program Matlab, selanjutnya
peneliti mengelompokan konten yang diklik dengan
struktur halaman link yang telah ditentukan dalam

variable penelitian yaitu:
Main Menu =1 Beasiswa =6
Program Studi =2 weblinks =7
Campus News =3 komentar =8
E-journal =4 menu register= 9
Seputar Pertanian= 5
2. Pattern Discovery
Tahap selanjutnya dari proses web usage mining adalah
pencarian pola akses yang dilakukan oleh pengunjung,
untuk menemukan semua hubungan dan korelasi
diantara item-item data, dimana kehadiran satu item
dalam transaksi menunjukan kehadiran item yang lain-nya, pattern discovery

pada penelitian ini
menggunakan aturan asosiasi menggunakan persamaan
support dan confidence untuk mendapatkan item yang
akan dikombinasikan, untuk proses algoritma apriori di
mulai dengan langkah, menentukan file yang akan di
proses, kemudian menentukan support dan confidence
untuk membangkitkan aturan yang diinginkan yaitu
kaidah aturan asosiasi (jika maka).
3. Pattern analysis
Pattern analysis merupakan tahap terakhir dalam web
usage mining, pada tahap ini, dilakukan proses
visualisasi hasil analisis pola yang telah dilakukan
pada langkah sebelumnya. Penyajian data menjadi hal
yang penting dalam langkah ini, dimana penyajian data
tentunya tergantung pada kebutuhan user dan bisnis.
Dari hasil visualisasi tersebut, dapat dilakukan suatu

keputusan misalnya keputusan untuk mengubah
tampilan suatu website, melakukan optimasi navigasi
website, meningkatkan kemampuan website dengan
melakukan caching halaman halaman tertentu yang
sering dikunjungi.
3.2. Rancangan Perangkat Lunak
Unified Modeling Language (UML). Merupakan
system arsitektur yang bekerja dalam object Oriented
Analysis Design (OOAD) dengan satu bahasa yang
konsisten untuk menentukan, visualisasi, mengkonstruksi,
dan mendokumentasikan yang terdapat dalam system
software. Adapun UML yang dibuat mencakup diagram
use case, diagram aktifitas, dan diagram sekuen.
1. Diagram Use Case
Diagram use case mengambarkan fungsionalitas yang
diharapkan dari sebuah sistem. Sebuah use case
mempresentasikan sebuah interaksi antara actor dengan
sistem, yang digambarkan dalam bentuk diagram use case
seperti pada gambar 3.
User
L o a d D a ta
Pa ra me te r a n a l i si s
apriori
Mi n i mu m Su p p o r t
Mi n i mu m C o n fi d e n ce
Gambar 3. Diagram Use Case
Jurnal Sistem Informasi Bisnis 02(2011) On-line :

http://ejournal.undip.ac.id/index.php/jsinbis 98
2. Diagram Sequence
Diagram sequence menggambarkan interaksi antar
objek di dalam dan di sekitar sistem. Diagram sequence
digunakan untuk mengambarkan skenario atau rangkaian
langkah-langkah yang dilakukan sebagai respons dari
sebuah event untuk menghasilkan output tertentu sequence
diagram untuk aplikasi yang dikembangkan seperti pada
gambar 4.
User
A nta r m uk a
A plik a s i
D a t a A pr ior i
Pr os e s A tur a n
A s os ia s i
Vi e w An ta rmu ka Ap l i ka si
Sh o w An ta rmu ka Ap l i ka si
L o a d D a ta
Sh o w L o a d d a ta
In p u t Mi n _ su p p o r t
In p u t Mi n _ co n fi d e n ce
Sh o w Mi n _ su p p o r t
Sh o w Mi n _ co n fi d e n ce
Pe rh i tu n g a n Mi n _ su p p o r t
Pe r h i tu n g a n Mi n _ co n fi d e n ce
H a si l Atu r a n Aso si a si
Gambar 4. Diagram Sequence
3. Diagram Aktivitas
Diagram aktivitas mengambarkan berbagai aliran
aktifitas dalam sistem yang sedang dirancang, bagaimana
masing-masing berawal, keputusan yang mungkin terjadi,
dan bagaimana berakhir. Diagram aktifitas mengambarkan
proses parallel yang mungkin terjadi pada beberapa
eksekusi. Diagram aktivitas dari aplikasi yang
dikembangkan dapat dilihat pada gambar 5.
Gambar 5. Diagram Aktivitas

Jawaban Ujian Pertemuan Ke - 5

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Jawaban Ujian Pertemuan Ke - 5

Diunggah oleh

Hak Cipta:

Format Tersedia

Nama : Rodiyah 41143255

Kelas : S2 RPL Teknik Informatika

Jawaban Ujian Pertemuan Ke - 5

Classification is a data mining (machine learning) technique used to predict

Menurut definisi tsb klasifikasi adalah teknik yang dilakukan untuk

1 Tua Merokok Lemah Jantung

1 Tua Tidak Merokok Agak Lemah

Dari tabel diatas diketahui ada 3 elemen yaitu

3. class : class adalah status dari setiap instance, class adalah

nah dalam klasifikasi, permasalahan yang dihadapai adalah menentukan

Tahapan dari klasifikasi dalam data mining terdiri dari

Pembangunan model, dalam tahapan ini dibuat sebuah model untuk

Penerapan model, pada tahapan ini model yang sudah dibangun

No Usia Diabetes Rajin Lajang Cakep LS ?

1 Muda Tidak Ya Ya Tidak Tidak

2 Muda Tidak Tidak Ya Tidak Sedikit

4 Muda Ya Tidak Ya Tidak Ya

5 Mata Tidak Ya Tidak Ya Tidak

6 Mata Tidak Tidak Tidak Tidak Sedikit

8 Mata Ya Tidak Ya Tidak Ya

dapat diusulkan model sebagai dibawah ini. ( cara membangkitkan model

dari model tersebut, jika digunakan pada training data didapatkan

No Usia Diabetes Rajin Lajang Cakep LS ? Keadaan

1 Muda Tidak Ya Ya Tidak Tidak

2 Muda Tidak Tidak Ya Tidak Sedikit

4 Muda Ya Tidak Ya Tidak Ya

5 Matang Tidak Ya Tidak Ya Tidak

8 Lanjut Tidak Ya Tidak Tidak Ya

setelah model digunakan, model akan memberikan jawaban sebagai berikut

Dari penerapan model diketahui bahwa akurasi model dibandingkan dengan

algoritma membangun model pohon keputusan menggunakan

metodelogi evaluasi model yang lebih komprehensif

Penentuan apakah diteruskan menuju predictor variable (decision node) atau

Dari training data tersebut kemudian disusunlah alternatif untuk candidate

Kemudian untuk setiap candidate split di atas, dihitung variabelvariabel

Adapun contoh hasil perhitungannya adalah sebagai berikut :

Demikian seterusnya hingga akhirnya dibentuk leaf node dan membentuk

Tabel Rekam_Medis, berisi data asli rekam medis pasien

Tabel Kasus, beisi data variabel yang dapat mempengaruhi kesimpulan

Tabel Aturan, berisi aturan hasil ekstrak dari pohon keputusan.

Proses akuisisi pengetahuan yang secara biasanya dalam sistem pakar

1. Jika Atr_1 = N_1

2. Jika Atr_1 = N_1

3. Jika Atr_1 = N_1

4. Jika Atr_1 = N_1

5. Jika Atr_1 = N_2

6. Jika Atr_1 = N_3

7. Jika Atr_1 = N_3

8. Jika Atr_1 = N_3

Model case based reasoning dapat digunakan sebagai metode akuisisi

Analisis Time series

Salah satu komponen yang mempengaruhi data time series adalah

Harga beras akan turun pada saat musim panen padi.

Penjualan buku akan meningkat pada awal sekolah.

Jumlah pengunjung ke gedung bioskop akan naik pada malam minggu.

Mencari indeks musiman dengan metoda rata-rata sederhana

Indeks musiman dapat digunakan untuk menguraikan perkiraan/ ramalan

Dari nilai rata-rata tersebut selanjutnya dicari besaran persentasenya

Dekomposisi adalah suatu prosedur dalam menganalisa data serial waktu

Data = Pola + Error

= fungsi (trend, musiman, siklis) + Error

Trend adalah suatu gerakan yang menunjukan arah perkembangan

Gerakan siklis adalah gerakan jangka panjang disekitar garis trend

Error/irregular adalah gerakan yang sporadis atau yang tidak