Algoritma Data Mining Decision Tree, Naive Bayes, DLL

ALGORITMA DATA MINING
A. DECISION TREE
1. Konsep Decision Tree
Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).
Sebagai contoh misalnya ingin membuat aturan yang dapat digunakan untuk menentukan apakah seseorang
mempunyai potensi untuk menderita hipertensi atau tidak berdasarkan data usia, berat badan dan jenis
kelamin.
2. Penggunaan Decision Tree

Beberapa contoh pemakaian decision tree antara lain:
 Diagnosa penyakit tertentu seperti hipertensi, kanker, stroke dan lain-lain.

 Pemilihan produk seperti rumah, kendaraan, komputer dan lain-lain
 Pemilihan pegawai teladan sesuai dengan kriteria tertentu.
 Deteksi ganguan pada komputer atau jaringan komputer seperti Deteksi Entrusi, deteksi Virus (trojan
dan varians)
 Masih banyak lainnya.
3. Algoritma Decision Tree

a. Konsep Data
 Data dinyatakan dalam bentuk tabel dengan atribut dan record.
 Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree.
Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan
temperatur.
 Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut
dengan target atribut.
 Sebagai gambaran perhatikan tabel berikut :
b. Proses Dalam Decision Tree

 Mengubah bentuk data (tabel) menjadi model tree
 Mengubah model tree menjadi rule
 Menyederhanakan rule (pruning)
c. Perhitungan Entropi
 Entropi merupakan suatu besaran yang digunakan untuk menentukan nilai root awal yang akan
dijadikan pembentukan tree.
1
 Entroy (S) adalah jumlah bit yang diperkirakan dibuuthkan untuk dapat mengekstrak suatu kelas ( +
atau - ) dari sejumlah data acak pada ruang sampel S.
 Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai
entropy , maka semakin baik untuk digunakan dalam mengekstrak suatu kelas.
 Panjang kode untuk menyatakan informasi secara optimal adalah –log2 p bits untuk data yang
mempunyai probabilitas p.
 Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah
-p log2 p – q log2 q.
 Rumus
Entropi (S) = -p loq2 p – q log2q

atau
Entropi (S) = -p 2loq p – q 2log q

 Dimana :
o S adalah ruang(data) sample yang digunakan untuk training
o p adalah jumlah data yang bersolusi positif (mendukung) pada data sampel untuk kriteria
tertentu.
o q adalah jumlah yang bersolusi negatif (tidak mendukung) pada data sampel untuk kriteria
tertentu.
4. Contoh
Misalnya dicari aturan yang dapat digunakan untuk menentukan apakah seseorang menderita
hipertensi atau tidak. Data yang diambil sebanyak 8 sampel dengan perkiraan bahwa yang
mempengaruhi seseorang menderita hipertensi atau tidak adalah usia, berat badan dan jenis kelamin.
Dimana masing-masing atribut yang diduga berpengaruhi tersebut memiliki nilai (intance):
 Usia mempunyai instance Muda dan Tua
 Berat Badan mempunyai instance Underweight, Average dan Overweight
 Jenis Kelamin mempunyai instance Pria dan Wanita
Langkah-langkah untuk menyelesaikan kasus diatas dengan algoritma Decision Tree adalah:
a. Menentukan Node Terpilih

 Untuk menentukan node terpilih, gunakan nilai Entropy dari setiap kriteria dengan data sampel
yang ditentukan.
2
 Node terpilih adalah kriteria dengan entropy terkecil.
 Memilih node awal
Entropy untuk Usia :
 Lakukan perhitungan untuk semua kriteria, hasil perhitungannya misalnya seperti dibawah ini:
 Berdasarkan perhitungan entropy diatas, maka diperoleh atribut BERAT BADAN sebagai node
awal karena memiliki entropy terkecil.
b. Menyusun Tree
 Dari hasil perhitungan entropy, maka dapat disusun tree awal seperti gambar berikut :
 Node berikutnya dapat dipilih dengan cara mencari bagian yang mempunyai nilai + dan - . Pada
contoh diatas hanya berat=overweight yang mempunyai nilai + dan -, maka semuanya pasti
memiliki leaf node. Untuk menyusun leaf node dilakukan satu persatu.
 Penentuan leaf node untuk cabang berat = overweight
3
 Dari perhitungan diatas, terlihat bahwa hasil perhitungan Entropy Usia dan Kenis Kelamin
menunjukkan nilai yang sama. Jika terdapat kasus seperti ini, maka cara lain adalah dengan
menggunakan bantuan pakar untuk menentukan mana yang lebih penting atau percaya dengan
hasil acak. Selanjutnya menyusun tree untuk leaf node, misalnya secara acak dipilih kriteria
Jenis Kelamin.
 Pada usia=tua ternyata ada 1 data yang menyatakan ya dan 1 data yang menyatakan tidak,
keadaan ini perlu dicermati . Pilihan hanya dapat ditentukan dengan campur tangan seorang
pakar.
 Menyusun node tree lanjutan
4
c. Mengubah Tree menjadi Rule
Dari rule yang sudah dihasilkan, maka diperoleh rule sebagai berikut :
Rule 1: IF berat=average OR berat=underweight THEN hipertensi=tidak
Rule 2: IF berat=overweight AND kelamin=wanita THEN hipertensi=ya
Rule 3: IF berat=overweight AND kelamin=pria AND usia=muda THEN hipertensi=ya
Rule 4: IF berat=overweight AND kelamin=pria AND usia=tua THEN hipertensi=tidak
d. Menyederhanakan dan Menguji Rule (Pruning)

 Menguji Rule untuk Prediksi
Kesalahan (error) : 1/8 x 100% = 12,5 %

Akurasi Prediksi : 7/8 x 100% = 87,5%
 Menyederhanakan Rule
1) Membuat tabel distribusi terpadu dengan menyatakan semua nilai kejadian pada setiap rule.
5
2) Menghitung tingkat independensi antara kriteria pada suatu rule, yaitu antara atribut dan target
atribut dengan Uji Statistik Chi-Square
Kriteria Berat Badan

H0 : Berat Badan tidak dependent terhadap Hipertensi
H1 : Berat Badan dependensi terhadap Hipertensi
Selanjutnya dihitung tingkat dependensi antara kriteria Berat Badan terhadap Hipertensi :
Derajat Kebebasan adalah (jumlah baris-1)(jumlah kolom -1) =(2-1)(3-1) dan nilai tingkat
keercayaan α =5%. Didapatkan nilai χ2 α yang didapat dari tabel distribusi Chi-Square adalah
6.27.
Karena nilai χ2hitung > χ2tabel yaitu 19,2 > 6,27 maka Tolak H0 artinya kriteria berat ini
dependent sehingga tidak dapat dihilangkan
Kriteria Jenis Kelamin

H0 : Jenis Kelamin tidak dependent terhadap Hipertensi
H1 : Jenis Kelamin dependensi terhadap Hipertensi
Dengan cara yang sama dengan cara perhitungan untuk kriteria Berat Badan, maka didapatkan
nilai χ2hitung sebesar 0,71 dan χ2tabel yaitu 3,89 dengan demikian χ2hitung < χ2tabel artinya
Terima H0 sehingga kriteria jenis kelamin ini independent terhadap hipertensi dan dapat
dihilangkan.
Kriteria Usia
H0 : Usia tidak dependent terhadap Hipertensi
H1 : Usia dependensi terhadap Hipertensi
Dengan cara yang sama dengan cara perhitungan untuk kriteria Berat Badan, maka didapatkan
nilai χ2hitung sebesar 2,13 dan χ2tabel yaitu 3,89 dengan demikian χ2hitung < χ2tabel artinya
Terima H0 sehingga kriteria usia ini independent terhadap hipertensi dan dapat dihilangkan.
6
3) Mengeliminasi kriteria yang tidak perlu, yaitu yang tingkat independensinya tinggi.
Dengan melihat hasil perhitungan nilai dependensi setiap kriteria terhadap hipertensi
didapatkan bahwa :
Kriteria Berat Badan  dependent terhadap Hpertensi  Tidak dapat dihilangkan
Kriteria Jenis Kelamin  tidak dependent terhadap Hipertensi Dapat dihilangkan
Kriteria Usia  tidak dependent terhadap Hipertensi  Dapat dihilangkan
Rule Awal :

Rule 2: IF berat=overweight AND kelamin=wanita THEN hipertensi=ya
Rule 3: IF berat=overweight AND kelamin=pria AND usia=muda THEN hipertensi=ya
Rule 4: IF berat=overweight AND kelamin=pria AND usia=tua THEN hipertensi=tidak
Rule Hasil Penyederhanaan 1:

Rule 2: IF berat=overweight THEN hipertensi=ya
Rule 4: IF berat=overweight THEN hipertensi=tidak
Rule Hasil Penyederhanaan 2:
Rule 1: IF berat=average v berat=underweight THEN hipertensi=tidak

 Menguji Rule Hasil Pruning
Kesalahan (error) : 1/8 x 100% = 12,5 %

Akurasi Prediksi : 7/8 x 100% = 87,5%
7
B. NAIVE BAYES
1. Konsep Naive Bayes

Simple naive Bayesian classifiermerupakan salah satu metode pengklasifikasi berpeluang sederhana
yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar variabel penjelas saling bebas
(independen).Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh
ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di
masa sebelumnya. Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Microsoft Research
memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter. Tetapi yang membuat
algoritma Bayesian filtering ini popular adalah pendekatan yang dilakukan oleh Paul Graham. Dasar dari
teorema naive digunakan dalam pemrograman adalah rumus Bayes berikut ini:
P (A|B) = (P(B|A) * P(A))/P(B)
Artinya Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B.
2. Penggunaan Naive Bayes

Contoh penggunaan Algoritma Naive Bayes antara lain:
 Untuk klasifikasi Dokumen
 Untuk deteksi SPAM atau fitering SPAM
 Dan masalah klasifikasi lainnya
3. Algoritma Naive Bayes

Teorema Bayes:
P(C|X) = P(X|C)·P(C) / P(X)
Dimana :
 P(X) bernilai konstan utk semua klas

 P(C) merupakan frek relatif sample klas C
 Dicari P(C|X) bernilai maksimum, sama halnya dengan P(X|C)·P(C) juga bernilai maksimum
Masalah  menghitung P(X|C) tidak mungkin
 Apabila diberikan k atribut yang saling bebas (independence), nilai probabilitas dapat diberikan sebagai
berikut.
P(x1,…,xk|C) = P(x1|C) x … x P(xk|C)
 Jika atribut ke-i bersifat diskret, maka P(xi|C) diestimasi sebagai frekwensi relatif dari sampel yang
memiliki nilai xi sebagai atribut ke i dalam kelas C.
 Namun jika atribut ke-i bersifat kontinu, maka P(xi|C) diestimasi dengan fungsi densitas Gauss.
  x   2
1 2 2
f ( x)  e
2 
dengan  = mean, dan  = deviasi standar.
8
4. Contoh
Misalnya terdapat ingin diketahui apakah suatu objek masuk dalam ketegori dipilih untuk
perumahan atau tidak dengan algoritma Naive Bayes Classifier. Untuk menetapkan suatu daerah akan
dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan.
Ada 4 atribut yang digunakan, yaitu:
 harga tanah per meter persegi (C1),
 jarak daerah tersebut dari pusat kota (C2),
 ada atau tidaknya angkutan umum di daerah tersebut (C3), dan
 keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4).
a. Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1)
b. Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2)
c. Probabilitas kemunculan setiap nilai untuk atribut Ada Angkutan Umum (C3)
9
d. Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C4)
e. Menghitung probabilitas setiap kejadian :

 Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak
dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung:
YA  =P(Ya| Tanah=MAHAL).P(Ya|Jarak=SEDANG).P(Ya|Angkutan=ADA).P(Ya)
= 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
TIDAK  = P(Tidak| Tanah=MAHAL).P(Tidak|Jarak=SEDANG).P(Tidak|Angkutan=ADA).P(Ya)
= 3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036
 Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut
sehingga jumlah nilai yang diperoleh = 1
0,008
Probabilitas Ya =  0,182.
0,008  0,036
Klasifikasi : TIDAK
0,036
 0,818.
Probabilitas Tidak = 0,008  0,036
Untuk jenis data harga tanah dan jarak pusat kota yang kontinue, misalnya :
 Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1)
10
 Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2)
 Probabilitas kemunculan setiap nilai untuk atribut Angkutan Umum (C3)
 Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk Perumahan (C4)
 Apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

 300 212 2
1 2
f (C1  300 | ya )  e 2(168,8787)  0,0021.
2 (168,8787)
 300  435 2
1 2
f (C1  300 | tidak )  e 2( 261.9637)  0,0013.
2 (261.9637)
 17  4 ,8 2
1 2
f (C 2  17 | ya )  e 2(3.9623)  0,0009.
2 (3.9623)
 17 17 , 2 2
1 2
f (C 2  17 | tidak )  e 2( 6,3008)  0,0633.
2 (6,3008)
Sehingga :
 Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10
= 0,000000756.
 Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10
= 0,000016458.
 Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga
jumlah nilai yang diperoleh = 1
 Probabilitas Ya = 0,000000756
 0,0439.
0,000000756  0,000016458
Klasifikasi : TIDAK
 Probabilitas Tidak = 0,000016458
 0,9561.
0,000000756  0,00001645 8
11
C. TIME SERIES ANALYSIS
1. Konsep Analisis Deret Waktu (Time Series Analysis)

Dalam statistika dan pemrosesan sinyal, deret waktu adalah rangkaian data yang berupa nilai
pengamatan (observasi) yang diukur selama kurun waktu tertentu, berdasarkan waktu dengan interval yang
uniform (sama).Beberapa Contoh data deret waktu adalah produksi total tahunan produk pertanian indonesia,
harga penutupan harian sebuah saham di pasar modal untuk kurun waktu satu bulan, suhu udara per jam, dan
penjualan total bulanan sebuah pasar swalayan dalam waktu satu tahun.Analisis deret waktu (Bahasa Inggris:
time series analysis) merupakan metode yang mepelajari deret waktu, baik dari segi teori yang menaunginya
maupun untuk membuat peramalan (prediksi). Prediksi / Peramalan deret waktu adalah penggunaan model
untuk memprediksi nilai di waktu mendatang berdasar peristiwa yang telah terjadi. Di dunia bisnis, data deret
waktu digunakan sebagai bahan acuan pembuatan keputusan sekarang, untuk proyeksi, maupun untuk
perencanaan di masa depan.
Analisis data deret waktu pada dasarnya digunakan untuk melakukan analisis data yang
mempertimbangkan pengaruh waktu. Data-data yang dikumpulkan secara periodik berdasarkan urutan waktu,
bisa dalam jam, hari, minggu, bulan, kuartal dan tahun, bisa dilakukan analisis menggunakan metode analisis
data deret waktu. Analisis data deret waktu tidak hanya bisa dilakukan untuk satu variabel (Univariate) tetapi
juga bisa untuk banyak variabel (Multivariate). Selain itu pada analisis data deret waktu bisa dilakukan
peramalan data beberapa periode ke depan yang sangat membantu dalam menyusun perencanaan ke depan.
Beberapa bentuk analisis data deret waktu dapat dikelompokkan ke dalam beberapa katagori :
a. Metode Pemulusan (Smoothing)
Metode pemulusan dapat dilakukan dengan dua pendekatan yakni Metode Perataan (Average) dan Metode
Pemulusan Eksponensial (Exponential Smoothing). Pada metode rataan bergerak dapat digunakan untuk
memuluskan data deret waktu dengan berbagai metode perataan, diantaranya : (1) rata-rata bergerak
sederhana (simple moving average), (2) rata-rata bergerak ganda dan (3) rata-rata bergerak dengan ordo
lebih tinggi. Untuk semua kasus dari metode tersebut, tujuannya adalah memanfaatkan data masa lalu untuk
mengembangkan sistem peramalan pada periode mendatang.
Pada metode pemulusuan eksponensial, pada dasarnya data masa lalu dimuluskan dengan cara melakukan
pembotan menurun secara eksponensial terhadap nilai pengamatan yang lebih tua. Atau nilai yang lebih baru
diberikan bobot yang relatif lebih besar dibanding nilai pengamatan yang lebih lama. Beberapa jenis analisis
data deret waktu yang masuk pada katagori pemulusan eksponensial, diantaranya : (1) pemulusan
eksponensial tunggal, (2) pemulusan eksponensia tunggal: pendekatan adaptif, (3) pemulusan eksponensial
ganda : metode Brown, (4) metode pemulusan eksponensial ganda : metode Holt, (5) pemulusan
eksponensial tripel : metode Winter. Pada metode pemulusan eksponensial ini, sudah mempertimbangkan
pengaruh acak, trend dan musiman pada data masa lalu yang akan dimuluskan. Seperti halnya pada metode
rataan bergerak, metode pemulusan eksponensial juga dapat digunakan untuk meramal data beberapa
periode ke depan.
b. Model ARIMA (Autoregressive Integrated Moving Average)

Seperti halnya pada metode analisis sebelumnya, model ARIMA dapat digunakan untuk analisis data deret
waktu dan peramalan data. Pada model ARIMA diperlukan penetapan karakteristik data deret berkala seperti
stasioner, musiman dan sebagainya, yang memerlukan suatu pendekatan sistematis, dan akhirnya akan
menolong untuk mendapatkan gambaran yang jelas mengenai model-model dasar yang akan ditangani. Hal
utama yang mencirikan dari model ARIMA dalam rangkan analisis data deret waktu dibandingkan metode
pemulusan adalah perlunya pemeriksaan keacakan data dengan melihat koefisien autokorelasinya. Model
ARIMA juga bisa digunakan untuk mengatasi masalah sifat keacakan, trend, musiman bahkan sifat siklis data
data deret waktu yang dianalisis.
12
c. Analisis Deret Berkala Multivariate
Model ARIMA digunakan untuk analisis data deret waktu pada katagori data berkala (tunggal), atau sering
dikatagorikan model-model univariate. Untuk data-data dengan katagori deret berkala berganda (multiple),
tidak bisa dilakukan analisis menggunakan model ARIMA, oleh karena itu diperlukan model-model
multivariate. Model-model yang masuk kelompok multivariate analisisnya lebih rumit dibandingkan dengan
model-model univariate. Pada model multivariate sendiri bisa dalam bentuk analisis data bivariat (yaitu,
hanya data dua deret berkala) dan dalam bentuk data multivariate (yaitu, data terdiri lebih dari dua deret
berkala). Model-model multivariate diantaranya: (1) model fungsi transfer, (3) model analisis intervensi
(intevention analysis), (4) Fourier Analysis, (5) analisis Spectral dan (6) Vector Time Series Models.
2. Penggunaan Analisis Deret Waktu (Time Series Analysis)

Banyak persoalan dalam ilmu terapan yang datanya merupakan data deret waktu, misalnya dalam bidang
ilmu:
 Ekonomi : banyak barang terjual dalam setiap hari, keuntungan perusahaan dalam setiap tahun, total
nilai ekspor dalam setiap bulan, pergerakan saham, dan lain-lain.
 Fisika : curah hujan bulanan, temperatur udara harian, gerak partikel, dan lain-lain.
 Demografi : pertumbuhan penduduk, mortalitas dan natalitas, dan lain-lain
 Pengontrolan kualitas : proses pengontrolan kualitas produk, pengontrolan proses produksi, dan lain-
lain.
 Biomedis : denyut nadi, proses penyembuhan, pertumbuhan mikroba, dan lain-lain
3. Algoritma Analisis Deret Waktu (Time Series Analysis)

Dalam analisis data deret waktu, proses baku yang harus dilakukan adalah
a. Definisikan Tujuan Peramalan
Misalnya peramalan dapat digunakan selama masa pra-produksi untuk mengukur tingkat dari suatu
permintaan.
b. Buatlah diagram pencar (Plot Data)

Misalnya memplot demand versus waktu, dimana demand sebagai ordinat (Y) dan waktu sebagai axis
(X). Misalnya seperti gambar dibawah ini :
Model Stasioner Model Trend
Model Seasonal (Musiman) Model Seasonal dan Trend
13
c. Memilih model peramalan yang tepat
Melihat dari kecenderungan data pada diagram pencar, maka dapat dipilih beberapa model peramalan
yang diperkirakan dapat mewakili pola tersebut. Model-model didalam peramalan data time series
antara lain :
1) Model Konstan (Constant Forecasting)

Persamaan garis yang menggambarkan pola konstan adalah:
Y’(t) = a , dimana a = konstanta
Untuk mendapatkan nilai (a) maka dapat didekati melalui turunan kuadrat terkecilnya (least square)
terhadap (a) sebagai berikut: n
E   [Y (t )  a ]2
i 1
Dimana :
n n n
dE
0 diperoleh  2 [Y (t )  a ]  0 , karena  Y (t )   a  0 ;
da i 1 i 1 i 1
n
maka  Y (t )  na  0
i 1
n
 Y (t )
i 1
Sehingga:  a ; dimana n = jumlah periode peramalan.
n
Jadi, apabila pola data berbentuk konstan, maka peramalannya dapat didekati dengan harga rata-
rata dari data tersebut.
2) Model Siklis (Musiman)

Untuk pola data yang bersifat siklis atau musiman, persamaan garis yang mewakili dapat didekati
dengan fungsi trigonometri, yaitu:
2 2
Y ' (t )  a  u cos t  v sin t
n n
Dimana n adalah jumlah periode peramalan
Jumlah Kuadrat Kesalahan Terkecil didefinisikan sebagai:
n
2 2 2
E   [Y (t )  a  u cos t  v sin t )]
i 1 N N
Bentuk diskriminannya adalah sebagai berikut:
2 2
k’ ' 1 cos t sin t
N N
k n 0 0
2 n 0
 k cos
N
t 0
2
0
2 n
 k sin N
t 0 0
2
14
Maka:
n 0 0 k 0 0 k n 0 k n 0
n 2 n 2 2 2 2 n
k' 0 0  1  k cos t 0  cos t  k cos t 0 0  sin t  k cos t 0 0
2 N 2 N N N N 2
n 2 n 2 n 2
0 0
2
 k sin
N
t 0
2
 k sin
N
t 0
2
 k sin
N
t 0 0
3) Model Regresi Liner

Persamaan garis yang mendekati bentuk data linier adalah Y’(t) = a + b(t)
Konstanta a dan b ditentukan dari data mentah berdasarkan Kriteria Kuadrat Terkecil (least square
criterion). Perhitungannya sebagai berikut:
Anggaplah data mentah diwakili dengan (Yi,ti), dimana Yi adalah permintaan aktual di saat ti, dimana
i = 1,2, .....,n. n
Definisikan: E  [Y (t )  a  b(t )]2

i 1
Turunkan persamaan tersebut terhadap a dan b:

n n n
dE
 0 yaitu  2 [Y (t )  a  bt ]  0 diperoleh  Y (t )  na  b t  0 ...........(1)
da i 1 i 1 i 1
n n n n
dE
db
 0 yaitu  2 t[Y (t )  a  bt ]  0 diperoleh
i 1
 tY (t )  a t  b t 2  0 ....(2)
i 1 i 1 i 1
Dengan mengeliminasi persamaan (1) dan (2) diperoleh nilai a dan b:

n n n n n
n tY (t )   Y (t ) t  Y (t )  b t
i 1 i 1
i 1 i 1 i 1
b 2
a
n
 n n
n t 2    t 
i 1  i 1 
Confidence Interval dan Prediction Interval
Berdasarkan sebaran t dengan (n – 2) derajat bebas, maka pada persamaan linier [Y’(t) = a + b(t)]
dapat dibuat Selang Kepercayaan (confidence intervals) dengan (1-)100% bagi nilai tengah dari Y
dan Selang Taksiran (prediction intervals) untuk setiap nilai Y, yaitu:
1 (t o  t ) 2
Confidence Interval = Y’(t) ± t/2 SEE 
n 2
( t ) 2
t  n
Prediction Interval untuk setiap nilai Y yaitu (1-)100% bila t = to.
15
1 (t o  t ) 2
Prediction Interval = Y’(t) ± t/2SEE 1  
n 2
( t ) 2
t  n
4) Model Rata-Rata Bergerak (Moving Average)

Metode rata-rata bergerak banyak digunakan untuk menentukan trend dari suatu deret waktu.
Dengan menggunakan metode rata-rata bergerak ini, deret berkala dari data asli diubah menjadi
deret rata-rata bergerak yang lebih mulus. Metode ini digunakan untuk data yang perubahannya
tidak cepat, dan tidak mempunyai karakteristik musiman atau seasonal. Model rata-rata bergerak
mengestimasi permintaan periode berikutnya sebagai rata-rata data permintaan aktual dari n
periode terakhir. Terdapat tiga macam model rata-rata bergerak, yaitu:
a) Simple Moving Average

Yt  Yt 1  Yt  2  ....  Yt  n1
Simple Moving Average (SMAt) =
n
b) Centered Moving Average

Perbedaan utama antara Simple Moving Average dan Centered Moving Average terletak pada
pemilihan observasi yang digunakan. Simple Moving Average menggunakan data yang sedang
diobservasi tambah data sebelum observasi. Misalnya, menggunakan 5 periode moving average,
maka untuk SMA menggunakan data periode ke-5 dan 4 data periode sebelumnya. Sebaliknya
untuk CMA, “Center” berarti rataan antara data sekarang dengan menggunakan data
sebelumnya dan data sesudahnya. Misalnya untuk 3 periode moving average, maka SMA
menggunakan data periode 3 ditambah data sebelumnya dan data sesudahnya. Didefinisikan
sebagai berikut:
Yt (( L 1 / 2 )  ........Yt  ........  Yt (( L 1) / 2

CMAt 
L
Dimana Yt adalah nilai tengah dari interval L data observasi. (L-1)/2 observasi merupakan data
sebelum dan sesudahnya. Misalnya CMA 5 periode, maka Yt = Y5 maka intervalnya dimulai dari
Y3 sampai Y7 .
c) Weighted Moving Average

Formula untuk Weighted Moving Average (WMAt):
Ft  w1 At 1  w2 At  2  .......  wn At  n
dan
n
w
i 1
i 1
5) Model Pelicinan/Pemulusan Eksponensia ( Exponential Smoothing)

Dalam model rata-rata bergerak (Moving Average) dapat dilihat bahwa untuk semua data obesrvasi
memiliki bobot yang sama yang membentuk rata-ratanya. Padahal, data observasi terbaru
seharusnya memiliki bobot yang lebih besar dibandingkan dengan data observasi di masa yang lalu.
Hal ini dipandang sebagai kelemahan model peramalan Moving Average. Untuk itu, digunakanlah
16
metode Exponential Smoothing agar kelemahan tersebut dapat diatasi didasarkan pada alasan
sebagai berikut:
Metode exponential smoothing mempertimbangkan bobot data-data sebelumnya dengan estimasi
untuk Y’(t+1) dengan periode (t+1) dihitung sebagai:
Y '(t 1)  Y1   (1   )Y(t 1)   (1   ) 2 Y(t 2)  ......

Dimana  disebut konstanta pelicinan dalam interval 0 <  < 1. Rumus ini memperlihatkan bahwa
data yang lalu memiliki bobot lebih kecil dibandingkan dengan data yang terbaru. Rumus tersebut
dapat disederhanakan sebagai berikut:
Dengan nilai Y’(1) untuk inisial ramalan didekati dengan nilai rata-ratanya ( Y )
Atau
Y '(t )  Y '( t 1)  (Y(t 1)  Y '(t 1) )
Perlu diperhatikan bahwa penetapan nilai konstanta memiliki andil yang penting dalam
menghasilkan hasil ramalan yang “andal”. Model Exponential Smoothing digunakan untuk
peramalan jangka pendek.
Selain model-model diatas masih banyak model lain yang sedang dikembangkan dalam rangka mencari
model terbaik untuk peramalan.
d. Lakukan Peramalan
e. Hitung kesalahan ramalan (forecast error)
Keakuratan suatu model peramalan bergantung pada seberapa dekat nilai hasil peramalan terhadap nilai
data yang sebenarnya. Perbedaan atau selisih antara nilai aktual dan nilai ramalan disebut sebagai
“kesalahan ramalan (forecast error)” atau deviasi yang dinyatakan dalam:
et = Y(t) – Y’(t)
Dimana : Y(t) = Nilai data aktual pada periode t
Y’(t) = Nilai hasil peramalan pada periode t
t = Periode peramalan
Maka diperoleh Jumlah Kuadrat Kesalahan Peramalan yang disingkat SSE (Sum of Squared Errors) dan
Estimasi Standar Error (SEE – Standard Error Estimated)
SSE =  e(t)2 = [Y(t)-Y’(t)]2
n
2
[Y (t )  Y ' (t )]
i 1
SEE 
n2
f. Pilih Metode Peramalan dengan kesalahan yang terkecil.

Apabila nilai kesalahan tersebut tidak berbeda secara signifikan pada tingkat ketelitian tertentu (Uji
statistik F), maka pilihlah secara sembarang metode-metode tersebut.
17
g. Lakukan Verifikasi
Untuk mengevaluasi apakah pola data menggunakan metode peramalan tersebut sesuai dengan pola
data sebenarnya.
4. Contoh
1) Model Konstan (Constant Forecasting)
Diberikan data permintaan pabrik konveksi PT Garmen Mandiri dari bulan Januari sampai Juni tahun
2006. Tentukan jumlah permintaan untuk lima bulan selanjutnya dengan menggunakan model konstan.
Bulan Permintaan dalam unit

(t) (Y)
Jan 46
Feb 56
Mar 54
Apr 43
Mei 57
Jun 56
Menghitung Konstanta a :
(46  56  54  43  57  56)
a=  52
6
Jadi permintaan untuk bulan Juli sampai dengan November 2006 dapat didekati dengan harga rata-
ratanya (a) yaitu 52 unit.
2) Model Siklis (Musiman)

Diketahui data permintaan produksi chip pada tahun 2005 sebagai berikut:

(t) (Y)
Jan 73
Feb 83
Mar 92
Apr 107
Mei 114
Jun 129
Jul 91
Aug 108
Spt 116
Oct 79
Nov 92
Des 93
1) Tentukan demand di tahun berikutnya dengan metode peramalan pola data siklis.
k= h=
t Y hk sin (2t/12) cos (2t/12) kcos(t/6) ksin(t/6)
d -98 t - 6
Jan 1 72 -26 -5 130 0.500 0.866 -22.52 -13.00
Feb 2 83 -15 -4 60 0.866 0.500 -7.50 -12.99
Mar 3 92 -6 -3 18 1.000 0.000 0.00 -6.00
Apr 4 107 9 -2 -18 0.866 -0.500 -4.50 7.79
18
May 5 114 16 -1 -16 0.500 -0.866 -13.86 8.00
Jun 6 129 31 0 0 0.000 -1.000 -31.00 0.00
Jul 7 91 -7 1 -7 -0.500 -0.866 6.06 3.50
Aug 8 108 10 2 20 -0.866 -0.500 -5.00 -8.66
Sept 9 116 18 3 54 -1.000 0.000 0.00 -18.00
Oct 10 79 -19 4 -76 -0.866 0.500 -9.50 16.45
Nov 11 92 -6 5 -30 -0.500 0.866 -5.20 3.00
Dec 12 93 -5 6 -30 0.000 1.000 -5.00 0.00
Total 78 1176 0 6 105 0.000 0.000 -98.01 -19.90
t t
k' 1 cos sin
6 6
0 12 0 0 0
 98.01 0 6 0
 19.90 0 0 6
Maka:
12 0 0 0 0 0 0 12 0 0 12 0
t t
k ' 0 6 0  1  98.01 6 0  cos  98.01 0 0  sin  98.01 0 6  0
6 6
0 0 6  19.90 0 6  19.90 0 6  19.90 0 0
t t
k ' (432)  cos (7056.72)  sin 1432.80  0
6 6
t t
k '  16.33 cos  3.32 sin
6 6
sehingga persamaan garisnya :
Y ' (t )  d  k ' = Y ' (t )  98  16.33 cos  t  3.32 sin  t

6 6
Demand Error
Month t Forecast (Y’) (Y - Y')^2
(Y) (e)
January 1 72 82.20 -10.20 104.00
February 2 83 86.96 -3.96 15.68
March 3 92 94.68 -2.68 7.18
April 4 107 103.29 3.71 13.76
May 5 114 110.48 3.52 12.38
June 6 129 114.33 14.67 215.21
July 7 91 113.80 -22.80 519.92
August 8 108 109.04 -1.04 1.08
September 9 116 101.32 14.68 215.50
October 10 79 92.71 -13.71 187.97
November 11 92 85.52 6.48 42.01
December 12 93 81.67 11.33 128.37
Totals 78 1176 1176 0 1463.07
19
2) Hitunglah standard error estimate-nya!
Standar Error Estimatenya (SEE) :
N
2
[Y (t )  Y ' (t )]
i 1 1463.07
SEE    12.09
n2 10
3) Model Regresi Liner

Diketahui data pada tahun 2005 pada tabel berikut ini.

(t) (Y)
Jan 199
Feb 202
Mar 199
Apr 208
Mei 212
Jun 194
Jul 214
Aug 220
Spt 219
Oct 234
Nov 219
Des 233
1) Tentukan demand tahun 2007

Month Bulan Ke- Demand t^2 t*Y(t)
Jan 1 199 1 199
Feb 2 202 4 404
Mar 3 199 9 597
Apr 4 208 16 832
May 5 212 25 1060
Jun 6 194 36 1164
Jul 7 214 49 1498
Aug 8 220 64 1760
Sep 9 219 81 1971
Oct 10 234 100 2340
Nov 11 219 121 2409
Des 12 233 144 2796
t=  Y(t) =  t^2 =  t*Y(t) =
78 2553 650 17030
12(17030)  (78)( 2553)

b  3,05
12(650)  (78) 2
(2553)  (3,05)(78)
a  192,95
12
20
Diperoleh Persamaannya : Y’(t) = 193 + 3(t) sehingga permintaan pada tahun 2007 adalah
sebagai berikut:
Bulan (t) Permintaan dalam unit (Y)
Jan (25) 268
Feb (26) 271
Mar (27) 274
Apr (28) 277
Mei (29) 280
Jun (30) 283
Jul (31) 286
Aug (32) 289
Spt (33) 292
Oct (34) 295
Nov (35) 298
Des (36) 301
2) Hitunglah SSE (Sum of Squared Errors) dan SEE-nya (Standard Error Estimated)
Untuk menghitung SSE dan Standard Error Estimatenya (SEE) terlebih dahulu dihitung demand
aktual dengan menggunakan persamaan (Y’(t)) yang telah diketahui.
Month Bulan Ke- Demand Ramalan [Y(t)-Y'(t)]^2

Jan 1 199 196 9
Feb 2 202 199 9
Mar 3 199 202 9
Apr 4 208 205 9
May 5 212 208 16
Jun 6 194 211 289
Jul 7 214 214 0
Aug 8 220 217 9
Sep 9 219 220 1
Oct 10 234 223 121
Nov 11 219 226 49
Dec 12 233 230 9
Total 78 2553 2553 530
Maka diperoleh Jumlah Kuadrat Kesalahan

(SSE) =  e(t)2 = [Y(t)-Y’(t)]2 = 530
Dan Estimasi Standard Errornya (SEE):

t
2
 [Y (t )  Y ' (t )]
i 1 530
SEE    7,28
t 2 12  2
3) Tentukan Confidence Interval dan Prediction Interval dengan t = 18 serta derajat  = 0,01
Dari Persamaan : Y’(t) = 193 + 3(t), maka untuk satu harga t = 18 diperoleh Y’=247 dengan
Standar Error Estimatenya (SEE)= 7.28 dan t/2 = t 0,005 = 3,169 untuk (n – 2 = 12 – 2 =10) derajat
bebas.
21
1 (t o  t ) 2
Confidence Interval = Y’(t) ± t/2 SEE 
n 2
( t ) 2
t  n
1 (18  6,5) 2
= 247 ± (3,169)(7,28) 
12 (78) 2
650 
12
= 247 ± 23,16
1 (t o  t ) 2
Prediction Interval = Y’(t) ± t/2SEE 1  
n 2
( t ) 2
t  n
1 (18  6,5) 2
= 247 ± (3,169)(7,28) 1 
12 78 2
650 
12
= 247 ± 46,32
4) Model Rata-Rata Bergerak (Moving Average)

a) Simple MA
Diberikan data harga penutupan akhir minggu surat-surat berharga perusahaan “Mandala” yang
bergerak dalam bidang maskapai penerbangan.
Maka Moving Average 3 mingguan (SMA3) terhadap harga penutupan akhir minggu saham diperoleh
dari perhitungan berikut:
Contoh perhitungan:
46  56  54
SMAMinggu3   52
3
22
56  54  43
SMAmin ggu 4   51
3
Berdasarkan data di atas, maka ramalan untuk minggu-minggu mendatang (13)

56  47  56
Y '(12 t )   53 unit dengan t = 1,2,3
3
b) Centered MA
Contoh perhitungan:
54  43  57  56  67
CMAMei   55,4
5
c) Weighted MA
Diketahui data penjualan suatu departement store 4 bulan periode. Kemudian ingin meramalkan
penjualan bulan ke-5 dengan moving average dimana menggunakan bobot 40% actual sales untuk
bulan saat ini (4), 30% untuk 2 bulan sebelumnya, 20% untuk 3 bulan sebelumnya, dan 10% untuk 4
bulan sebelumnya. Data penjualannya sebagai berikut:
Peramalan weighted moving average dengan N = 4 adalah:

F4  0.4(95)  0.3(105)  0.2(90)  0.1(100)  97.50
Maka ramalan bulan ke (5 + t) dengan t =1,2,3 adalah:

F5  0.4(95)  0.3(105)  0.2(90)  0.1(100)  97.50
23
5) Model Pelicinan/Pemulusan Eksponensia ( Exponential Smoothing)
Tabulasi data berikut ini merupakan actual sales dalam unit untuk 6 bulan dan peramalan
dimulai dari bulan januari.
Month Jan Feb Marc Apr May June

Actual Sales 100 94 108 80 68 94
1) Hitunglah estimasi nilai ramalannya menggunakan simple exponensial smoothing dengan  = 0.2 jika
inisial estimasi periode Januari = 80.
Forecast
Bulan Actual Sales Forecast(II) Error (Y-Y')^2
(1)
January 100 80 80 20 400
February 94 84 84 10 100
March 106 86 86 20 400
April 80 90 90 -10 100
May 68 88 88 -20 400
June 94 84 84 10 100
July 86 86 0
Total 542 598 598 90 1500
atau
Y '(t )  Y '(t 1)  (Y(t 1)  Y '(t 1) )
Y ' 2  0.2(100)  0.8(80)  84 atau
Y ' 2  80  0.2(100  80)  84
2) Hitunglah Mean Absolute Deviation (MAD)

Mean Absolute Deviation (MAD)
 Y (t )  Y ' (t )
t 1
MAD 
n
90
MAD   15 ;
6
dimana 1 MAD = 0.8 standard deviation diperoleh standar deviation = 12
24
D. CLUSTERING ANALYSIS
1. Konsep Analisis Cluster

Analisis Cluster adalah suatu analisis statistik yang bertujuan memisahkan kasus/obyek ke dalam
beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam
analisis ini tiap-tiap kelompok bersifat homogen antara anggota dalam kelompoknya atau dapat dikatakan
variasi obyek/individu dalam satu kelompok yang terbentuk sekecil mungkin.
Analisis Cluster merupakan metode pengelompokan, di mana data yang akan dikelompokan belum
membentuk kelompok sehingga pengelompokkan yang akan dilakukan bertujuan agar data yang terdapat di
dalam kelompok yang sama relatif lebih homogen daripada data yang berada pada kelompok yang berbeda.
Diharapkan dengan terbentuknya kelompok tersebut akan lebih mudah menganalisa dan lebih tepat
pengambilan keputusan sehubungan dengan masalah tersebut. Analisis Cluster dilakukan untuk tujuan: (1)
menggali data/eksplorasi data, (2) mereduksi data menjadi kelompok data baru dengan jumlah lebih kecil
atau dinyatakan dengan pengkelasan (klasifikasi) data, (3) menggeneralisasi suatu populasi untuk
memperoleh suatu hipotesis, (4) menduga karakteristik data-data.
Pengelompokkan untuk mereduksi obyek-obyek dalam satu kelompok yang mempunyai sifat yang
relatif sama (homogen) dapat dilakukan dengan dua cara, yaitu;
 Pengelompokkan Herarkhi.
 Pengelompokkan tak Herarkhi (non herarchi).
Pengelompokkan Herarkhi digunakan apabila tidak ada informasi tentang jumlah kelompok yang akan
diperoleh. Sedangkan pengelompokkan tak Herarkhi digunakan apabila seluruh obyek (n obyek) akan
dikelompokkan dalam k kelompok yang telah ditentukan terlebih dulu, dimana k < n.
Metode yang digunakan dalam Cluster non herarchi adalah:
- Metode K-Rataan (K-Mean method)
- Metode MANOVA (Manova method)
Klasifikasi prosedur pengelompokan dapat dilihat pada tabel dibawah ini :
Keunggulan Analisis Cluster :

 Dapat mengelompokan data observasi dalam jumlah besar dan variabel yang relatif banyak.
 Data yang direduksi dengan kelompok akan mudah dianalisis.
 Dapat dipakai dalam skala data ordinal, interval dan rasio
Kelemahan Analisis Cluster

 Pengelompokan bersifat subyektifitas peneliti karena hanya melihat dari gambar dendrogram
 Untuk data yang terlalu heterogen antara objek penelitian yang satu dengan yang lain akan sulit bagi
peneliti untuk menentukan jumlah kelompok yang dibentuk.
 Metode-metode dipakai memberikan perbedaan yang signifikan, sehingga dalam perhitungan biasanya
masing-masing metode dibandingkan.
 Semakin besar observasi, biasanya tingkat kesalahan pengelompokan akan semakin besar (hasil
penelitian)
2. Penggunaan Analisis Cluster

Contoh aplikasi dengan analisis Cluster antara lain :
 Segmentasi Pasar Konsumen
 Memahami Perilaku Pembeli.
 Mengidentifikasi peluang produk baru
25
 Memilih pasar mana yang akan dituju (targeting).
 Meringkas data atau Mereduksi data.
3. Algoritma Analisis Cluster

a. Merumuskan permasalahan
b. Memilih ukuran jarak atau kesamaan
Ada berbagai metode dan kriteria untuk melakukan pengelompokan. Salah satunya adalah secara
matematis. Untuk mengelompokkan data atau permasalahan dibutuhkan suatu ukuran yang dapat
menerangkan keserupaan atau kedekatan antara data. Jika data tersebut dapat dinyatakan dalam
bentuk matrik X yang anggota-anggotanya Xij, i = 1..n dan k=1..p maka beberapa ukuran kedekatan
antara data ke i dan ke j ( dij ) adalah sebagai berikut :
c. Memilih prosedur pengklusteran

Secara umum terdapat dua metode pengelompokan data yaitu metode pengelompokan hirarki dan non
hirarki. Metode pengelompokan hirarki adalah metode pengelompokan data yang mengelompokan n
buah data ke dalam n, n-1, 1 kelompok sedangkan metode pengelompokan non hirarki adalah metode
pengelompokan yang mengelompokkan n data ke dalam k kelompok yang sudah ditentukan terlebih
dahulu.
Di dalam metode pengelompokan data hirarki terdapat beberapa metode yang dibedakan
penentuan jarak antar kelompok yaitu :
1) Metode pautan tunggal (Single Lingkage)
Jarak antar kelompok untuk metode ini didefinisikan sebagai jarak terdekat antar pasangan data
yang terdapat pada dua kelompok tersebut.
2) Metode pautan lengkap (Complete Lingkage)
Jarak antar kelompok untuk metode ini didefinisikan sebagai jarak terjauh antar pasangan data yang
terdapat pada dua kelompok tersebut.
3) Metode pautan pusat (Centroid Lingkage)
Jarak antar kelompok untuk metode ini didefinisikan sebagai jarak terdekat antar pusat kelompok.
4) Metode pautan rerata (Average Lingkage)
Jarak antar kelompok untuk metode ini didefinisikan sebagai rerata jarak antar pasangan data yang
terdapat pada dua kelompok tersebut.
Sedangkan didalam metode pengelompokan no hirarki terdapat Masalah utama dalam metoda
non hirarkhi adalah bagaimana memilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster
terhadap hasil akhir analisis cluster. Bakal cluster pertama adalah observasi pertama dalam set data
tanpa missing value. Bakal kedua adalah observasi lengkap berikutnya (tanpa missing data) yang
dipisahkan dari bakal pertama oleh jarak minimum khusus.
Ada tiga prosedur dalam metode non hirarkhi, yaitu :
1) Sequential threshold
Metode ini dimulai dengan memilih bakal cluster dan menyertakan seluruh objek dalam jarak
tertentu. Jika seluruh objek dalam jarak tersebut disertakan, bakal cluster kedua terpilih, kemudian
proses terus berlangsung seperti sebelumnya.
26
2) Parallel Threshold
Metode ini memilih beberapa bakal cluster secara simultan pada permulaannya dan menandai
objek-objek dengan jarak permulaan ke bakal terdekat.
3) Optimalisasi
Metode ketiga ini mirip dengan kedua metode sebelumnya kecuali pada penandaan ulang terhadap
objek-objek.
Hal penting lain adalah menentukan jumlah cluster yang akan dibentuk. Sebenarnya tidak ada
standar,prosedur pemilihan tujuan eksis. Karena tidak ada kriteria statistik internal digunakan untuk
inferensia, seperti tes signifikansipada teknik multivariat lainnya, para peneliti telah mengembangkan
beberapa kriteria dan petunjuk sebagai pendekatan terhadap permasalahan ini dengan memperhatikan
substansi dan aspek konseptual.
d. Menetapkan jumlah cluster

Algoritma untuk metode pengelompokan hirarki adalah :
1) Tentukan matrik jarak antar data atau kelompok
2) Gabungkan dua data atau kelompok terdekat ke dalam kelompok yang baru
3) Tentukan kembali matrik jarak tersebut.
4) Lakukan langkah 2 dan 3 sampai semua data masuk dalam satu kelompok
Algoritma untuk metode pengelompokan Non Hirarki adalah :

1) Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang.
2) Hitung jarak setiap data ke pusat cluster.
3) Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek.
4) Hitung pusat cluster.
5) Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data yang berpindah ke cluster yang lain.
e. interpretasi dan profil dari cluster

Hasil pengelompokan tersebut dapat digambarkan dengan diagram pohon dendrogram atau vicicle plot.
Jumlah kelompok yang terjadi ditentukan dari dendrogram yang terjadi dan tergantung subyektivitas
peneliti. Dibawah ini contoh dendrogram hasil output SPSS untuk 10 observasi dengan 3 variabel.
Terlihat bahwa ada 2 kelompok yang dibentuk yaitu kelompok pertama terdiri dari observasi ke 8, 9 10,
7 dan kelompok kedua yang terdiri dari observasi 1, 2, 4, 5, 6, dan 3.
f. Menaksir reliabilitas dan validitas

Yaitu melakukan pengujian terhadap kesalahan dan akurasi hasil pengelompokan dengan
membandingkan antara data prediksi pengelompokan dan data sebenarnya. Proses validasi bertujuan
menjamin bahwa solusi yang dihasilkan dari analisis cluster dapat mewakili populasi dan dapat
27
digeneralisasi untuk objek lain. Pendekatan ini membandingkan solusi cluster dan menilai korespondensi
hasil. Terkadang tidak dapat dipraktekkan karena adanya kendala waktu dan biaya atau
ketidaktersediaan ibjek untuk analisis cluster ganda.
Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster tersebut
dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik yang secara signifikan
berbeda antar clustre dan memprediksi anggota dalam suatu cluster khusus.
Secara keseluruhan proses analisis cluster berakhir setelah keenam tahap ini dilalui. Hasil analisis cluster
dapat digunakan untuk berbagai kepentingan sesuai dengan materi yang dianalisis.
4. Contoh
a. Metode Hirarki
Proximity Matrix
Contoh menghitung jarak antar titik :
1) Metode MIN (SINGLE LINKAGE)  Nearest Neighbour
Dist({3,6},{2,5}) = min(dist(3,2),dist(3,5),dist(6,2),dist(6,5))
= min(0.15,0.25,0.28,0.39) = 0.15
28
2) Metode MAX (COMPLETE LINKAGE)
 Dist({3,6},{4}) = max(dist(3,4),dist(6,4)) = max (0.15,0.22) = 0.22
 Dist({3,6},{2,5}) = max(dist(3,2),dist(3,5),dist(6,2),dist(6,5)) = max(0.15,0.25,0.28,0.39)
= 0.39
 Dist({3,6},{1}) = max(dist(3,1),dist(6,1)) = max(0.22,0.23) = 0.23
3) Metode AVERAGE
Proximity dari 2 klaster adalah rata-rata jarak tiap 2 titik pada 2 klaster yang berbeda
 dist({3,6,4},{1}) = (0.22+0.37+0.23)/(3*1)= 0.28

 dist({2,5},{1}) = (0.24+0.34)/(2*1) = 0.29
 dist({3,6,4},{2,5}) = (0.15+0.28+0.25+0.39+0.20+0.29)/(3*2) = 0.26
29
4) Penerapan
Jarak (8,5)
terhadap
X1 X2 Y (X1,X2)
6 2 + 13
5 7 + 13
3 5 + 25
7 1 + 17
2 2 + 45
2 1 + 52
2 4 + 37
5 4 + 10
7 6 + 2
1 4 + 50
4 9 - 32
10 8 - 13
6 7 - 8
4 10 - 41
9 5 - 1
7 9 - 17
8 5 - 0
7 7 - 5
10 4 - 5
6 9 - 20
9 7 - 5
6 5 - 4
8 10 - 25
6 4 - 5
8 5 ?
Jadi titik (8,5) termasuk dalam kelompok (-)
12
10
Positive
6 Negative
?
0
0 2 4 6 8 10 12
30
b. Metode Non Hirarki (K-Means)
Instance X Y
1 2 5
2 2 5,5
3 5 3,5
4 6,5 2,2
5 7 3,3
6 3,5 4,8
7 4 4,5
 Pilih K=2
 Pilih titik pusat klaster misalnya C1(3,4) dan C2(6,4)
 Iterasi 1
Hitung jarak masing-masing titik terhadap tiitk pusat C1 (3,4)
Instance X Y Jarak ke C1 Di
1 2 5 (2 − 3) + (5 − 4) 1,41
2 2 5,5 (2 − 3) + (5,5 − 4) 1,80
3 5 3,5 (5 − 3) + (3,5 − 4) 2,06
4 6,5 2,2 (6,5 − 3) + (2,2 − 4) 3,94
5 7 3,3 (7 − 3) + (3,3 − 4) 4,06
6 3,5 4,8 (3,5 − 3) + (4,8 − 4) 0,94
7 4 4,5 (4 − 3) + (4,5 − 4) 1,12
Hitung jarak masing-masing titik terhadap tiitk pusat C2 (6,4)

Instance X Y Jarak ke C2 Di
1 2 5 (2 − 6) + (5 − 4) 4,12
2 2 5,5 (2 − 6) + (5,5 − 4) 4,27
3 5 3,5 (5 − 6) + (3,5 − 4) 1,18
4 6,5 2,2 (6,5 − 6) + (2,2 − 4) 1,86
5 7 3,3 (7 − 6) + (3,3 − 4) 1,22
6 3,5 4,8 (3,5 − 6) + (4,8 − 4) 2,62
7 4 4,5 (4 − 6) + (4,5 − 4) 2,06
Bandingkan nilai jarak terhadap C1 dan C2

Instance Di,c1 Di,c2
1 1,41 4,12
2 1,80 4,27
3 2,06 1,18
4 3,94 1,86
5 4,06 1,22
6 0,94 2,62
7 1,12 2,06
Jadi klaster 1 berisi instance 1,2,6,7 dan klaster 2 berisi instance 3,4,5
31
 Hitung tiitk pusat baru
 Iterasi 2
Dengan cara yang sama seperti pada iterasi 1 , diperoleh :
Instance Di,c1 Di,c2

1 0,76 4,62
2 0,96 4,86
3 2,65 1,27
4 4,62 0,86
5 4,54 0,88
6 0,76 3,22
7 1,31 2,63
Dari perbandingan ini diketahui bahwa anggota klaster 1 adalah instance 1,2, 6 dan 7
sedangkan anggota klaster 2 adalah instance 3,4 dan 5. Karena anggota klaster tidak berubah, maka
titik pusat yang baru pu tidak berubah sehingga iterasi dapat dihentikan
 Jadi iterai berhenti hingga nilai C1 dan C2 tidak berubah (atau memenuhi treshold yang diinginkan)
 Hitung SSE = Sum Squared Error, digunakan untuk menentukan hasil klasterisasi yang lebih baik,jika
inisialisasi centroidnya berbeda-beda
K
1
SSE    dist (ci , x ) 2 ci  x
i 1 xCi mi xCi
 Makin kecil nilai SSE, makin baik

 Salah satu teknik untuk memperkecil nilai SSE adalah dengan memperbesar nilai K
32

Algoritma Data Mining Decision Tree, Naive Bayes, DLL

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Algoritma Data Mining Decision Tree, Naive Bayes, DLL

Diunggah oleh

Hak Cipta:

Format Tersedia

ALGORITMA DATA MINING

2. Penggunaan Decision Tree

 Diagnosa penyakit tertentu seperti hipertensi, kanker, stroke dan lain-lain.

3. Algoritma Decision Tree

b. Proses Dalam Decision Tree

Entropi (S) = -p loq2 p – q log2q

Entropi (S) = -p 2loq p – q 2log q

a. Menentukan Node Terpilih

 Memilih node awal

Entropy untuk Usia :

d. Menyederhanakan dan Menguji Rule (Pruning)

Kesalahan (error) : 1/8 x 100% = 12,5 %

Kriteria Berat Badan

Kriteria Jenis Kelamin

Rule 1: IF berat=average OR berat=underweight THEN hipertensi=tidak

Rule Hasil Penyederhanaan 1:

Rule 1: IF berat=average OR berat=underweight THEN hipertensi=tidak

Rule Hasil Penyederhanaan 2:

Rule 1: IF berat=average v berat=underweight THEN hipertensi=tidak

 Menguji Rule Hasil Pruning

Kesalahan (error) : 1/8 x 100% = 12,5 %

1. Konsep Naive Bayes

P (A|B) = (P(B|A) * P(A))/P(B)

2. Penggunaan Naive Bayes

3. Algoritma Naive Bayes

P(C|X) = P(X|C)·P(C) / P(X)

 P(X) bernilai konstan utk semua klas

Masalah  menghitung P(X|C) tidak mungkin

dengan  = mean, dan  = deviasi standar.

a. Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1)

e. Menghitung probabilitas setiap kejadian :

 Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1)

 Probabilitas kemunculan setiap nilai untuk atribut Angkutan Umum (C3)

 Apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

1. Konsep Analisis Deret Waktu (Time Series Analysis)

b. Model ARIMA (Autoregressive Integrated Moving Average)

2. Penggunaan Analisis Deret Waktu (Time Series Analysis)

3. Algoritma Analisis Deret Waktu (Time Series Analysis)

b. Buatlah diagram pencar (Plot Data)

Model Stasioner Model Trend

Model Seasonal (Musiman) Model Seasonal dan Trend

1) Model Konstan (Constant Forecasting)

Y’(t) = a , dimana a = konstanta

2) Model Siklis (Musiman)

3) Model Regresi Liner

Turunkan persamaan tersebut terhadap a dan b:

Dengan mengeliminasi persamaan (1) dan (2) diperoleh nilai a dan b:

Confidence Interval dan Prediction Interval

4) Model Rata-Rata Bergerak (Moving Average)

a) Simple Moving Average

b) Centered Moving Average

Yt (( L 1 / 2 )  ........Yt  ........  Yt (( L 1) / 2

c) Weighted Moving Average

5) Model Pelicinan/Pemulusan Eksponensia ( Exponential Smoothing)

Y '(t 1)  Y1   (1   )Y(t 1)   (1   ) 2 Y(t 2)  ......

Y '(t )  Y '( t 1)  (Y(t 1)  Y '(t 1) )

SSE =  e(t)2 = [Y(t)-Y’(t)]2

f. Pilih Metode Peramalan dengan kesalahan yang terkecil.

Bulan Permintaan dalam unit

2) Model Siklis (Musiman)

Bulan Permintaan dalam unit

sehingga persamaan garisnya :

Y ' (t )  d  k ' = Y ' (t )  98  16.33 cos  t  3.32 sin  t