Algoritma Data Mining Decision Tree Naive Bayes DLL

ALGORITMA DATA MINING A. DECISION TREE 1.
Konsep Decision Tree Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusa n (rule). Sebagai contoh misalnya ingin membuat aturan yang dapat digunakan untu k menentukan apakah seseorang mempunyai potensi untuk menderita hipertensi atau tidak berdasarkan data usia, berat badan dan jenis kelamin. 2. Penggunaan Decision Tree Beberapa contoh pemakaian decision tree antara lain: Diagnosa penyakit tertentu seperti hipertensi, kanker, stroke dan lain-lain. Pemilihan produk seperti rumah , kendaraan, komputer dan lain-lain Pemilihan pegawai teladan sesuai dengan krit eria tertentu. Deteksi ganguan pada komputer atau jaringan komputer seperti Dete ksi Entrusi, deteksi Virus (trojan dan varians) Masih banyak lainnya. 3. Algoritma Decision Tree a. Konsep Data Data dinyatakan dalam bentuk tabel dengan atribut dan record. Atr ibut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan t ree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cua ca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan d ata solusi per-item data yang disebut dengan target atribut. Sebagai gambaran pe rhatikan tabel berikut : b. Proses Dalam Decision Tree Mengubah bentuk data (tabel) menjadi model tree Me ngubah model tree menjadi rule Menyederhanakan rule (pruning) c. Perhitungan Ent ropi Entropi merupakan suatu besaran yang digunakan untuk menentukan nilai root awal yang akan dijadikan pembentukan tree. 1
Entroy (S) adalah jumlah bit yang diperkirakan dibuuthkan untuk dapat mengekstra k suatu kelas ( + atau - ) dari sejumlah data acak pada ruang sampel S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai entropy , maka semakin baik untuk digunakan dalam mengekstrak suatu kelas . Panjang kode untuk menyatakan informasi secara optimal adalah log2 p bits untuk data yang mempunyai probabilitas p. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah -p log2 p q log2 q. Rumus Entropi (S) = -p loq2 p q log2q atau Entropi (S) = -p 2loq p q 2log q Dimana : o S adalah ruang(data) sample yang digunakan untuk training o p adalah jumlah data yang bersolusi positif (mendukung) pada data sampel untuk kriteria t ertentu. o q adalah jumlah yang bersolusi negatif (tidak mendukung) pada data sa mpel untuk kriteria tertentu. 4. Contoh Misalnya dicari aturan yang dapat digunakan untuk menentukan apakah seseorang me nderita hipertensi atau tidak. Data yang diambil sebanyak 8 sampel dengan perkir aan bahwa yang mempengaruhi seseorang menderita hipertensi atau tidak adalah usi a, berat badan dan jenis kelamin. Dimana masing-masing atribut yang diduga berpe ngaruhi tersebut memiliki nilai (intance): Usia mempunyai instance Muda dan Tua Berat Badan mempunyai instance Underweight, Average dan Overweight Jenis Kelamin mempunyai instance Pria dan Wanita Langkah-langkah untuk menyelesaikan kasus diatas dengan algoritma Decision Tree adalah: a. Menentukan Node Terpilih Untuk menentukan node terpilih, gunakan nila i Entropy dari setiap kriteria dengan data sampel yang ditentukan. 2
Node terpilih adalah kriteria dengan entropy terkecil. Memilih node awal Entropy untuk Usia :
Lakukan perhitungan untuk semua kriteria, hasil perhitungannya misalnya seperti dibawah ini:
Berdasarkan perhitungan entropy diatas, maka diperoleh atribut BERAT BADAN sebag ai node awal karena memiliki entropy terkecil. b. Menyusun Tree Dari hasil perhitungan entropy, maka dapat disusun tree awal se perti gambar berikut :
Node berikutnya dapat dipilih dengan cara mencari bagian yang mempunyai nilai + dan - . Pada contoh diatas hanya berat=overweight yang mempunyai nilai + dan -, maka semuanya pasti memiliki leaf node. Untuk menyusun leaf node dilakukan satu persatu. Penentuan leaf node untuk cabang berat = overweight 3
Dari perhitungan diatas, terlihat bahwa hasil perhitungan Entropy Usia dan Kenis Kelamin menunjukkan nilai yang sama. Jika terdapat kasus seperti ini, maka cara lain adalah dengan menggunakan bantuan pakar untuk menentukan mana yang lebih p enting atau percaya dengan hasil acak. Selanjutnya menyusun tree untuk leaf node , misalnya secara acak dipilih kriteria Jenis Kelamin.
Pada usia=tua ternyata ada 1 data yang menyatakan ya dan 1 data yang menyatakan tidak, keadaan ini perlu dicermati . Pilihan hanya dapat ditentukan dengan campu r tangan seorang pakar. Menyusun node tree lanjutan 4
c. Mengubah Tree menjadi Rule Dari rule yang sudah dihasilkan, maka diperoleh ru le sebagai berikut : Rule 1: IF berat=average OR berat=underweight THEN hiperten si=tidak Rule 2: IF berat=overweight AND kelamin=wanita THEN hipertensi=ya Rule 3: IF berat=overweight AND kelamin=pria AND usia=muda THEN hipertensi=ya Rule 4: IF berat=overweight AND kelamin=pria AND usia=tua THEN hipertensi=tidak d. Meny ederhanakan dan Menguji Rule (Pruning) Menguji Rule untuk Prediksi Kesalahan (error) : 1/8 x 100% = 12,5 % Akurasi Prediksi : 7/8 x 100% = 87,5% Me nyederhanakan Rule 1) Membuat tabel distribusi terpadu dengan menyatakan semua n ilai kejadian pada setiap rule. 5
2) Menghitung tingkat independensi antara kriteria pada suatu rule, yaitu antara atribut dan target atribut dengan Uji Statistik Chi-Square Kriteria Berat Badan H0 : Berat Badan tidak dependent terhadap Hipertensi H1 : Berat Badan dependens i terhadap Hipertensi Selanjutnya dihitung tingkat dependensi antara kriteria Be rat Badan terhadap Hipertensi : Derajat Kebebasan adalah (jumlah baris-1)(jumlah kolom -1) =(2-1)(3-1) dan nilai tingkat keercayaan =5%. Didapatkan nilai 6.27. 2 y ng didapat dari tabel distribusi Chi-Square adalah Karena nilai 2hitung > 2t bel y itu 19,2 > 6,27 maka Tolak H0 artinya kriteria berat ini dependent sehingga tidak dapat dihilangkan Kriteria Jenis Kelamin H0 : Jenis Kel amin tidak dependent terhadap Hipertensi H1 : Jenis Kelamin dependensi terhadap Hipertensi Dengan cara yang sama dengan cara perhitungan untuk kriteria Berat Ba dan, maka didapatkan nilai 2hitung sebes r 0,71 dan 2t bel y itu 3,89 dengan demikian 2hitung < 2t bel artinya Terima H0 sehingga kriteria jenis kelamin ini independent terhadap hipertensi da n dapat dihilangkan. Kriteria Usia H0 : Usia tidak dependent terhadap Hipertensi H1 : Usia dependensi terhadap Hipertensi Dengan cara yang sama dengan cara perh itungan untuk kriteria Berat Badan, maka didapatkan nilai 2hitung sebes r 2,13 dan 2t bel y itu 3,89 dengan demikian 2hitung < 2t bel artinya Terima H0 sehingga kriteria usia ini independent terhadap hipertensi dan dapat d ihilangkan. 6
3) Mengeliminasi kriteria yang tidak perlu, yaitu yang tingkat independensinya t inggi. Dengan melihat hasil perhitungan nilai dependensi setiap kriteria terhada p hipertensi didapatkan bahwa : Kriteria Berat Badan dependent terhadap Hpertens i Tidak dapat dihilangkan Kriteria Jenis Kelamin tidak dependent terhadap Hipert ensi Dapat dihilangkan Kriteria Usia tidak dependent terhadap Hipertensi Dapat di hilangkan Rule Awal : Rule 1: Rule 2: Rule 3: Rule 4: IF berat=average OR berat= underweight THEN hipertensi=tidak IF berat=overweight AND kelamin=wanita THEN hi pertensi=ya IF berat=overweight AND kelamin=pria AND usia=muda THEN hipertensi=y a IF berat=overweight AND kelamin=pria AND usia=tua THEN hipertensi=tidak Rule Hasil Penyederhanaan 1: Rule 1: Rule 2: Rule 3: Rule 4: IF berat=average OR IF berat=overweight IF berat=overweight IF berat=overweight berat=underweight T HEN hipertensi=tidak THEN hipertensi=ya THEN hipertensi=ya THEN hipertensi=tidak Rule Hasil Penyederhanaan 2: Rule 1: Rule 2: IF berat=average v berat=underweigh t THEN hipertensi=tidak IF berat=overweight THEN hipertensi=ya Menguji Rule Hasil Pruning Kesalahan (error) : 1/8 x 100% = 12,5 % Akurasi Prediksi : 7/8 x 100% = 87,5% 7
B. NAIVE BAYES 1. Konsep Naive Bayes Simple naive Bayesian classifiermerupakan salah satu metode pengklasifikasi berp eluang sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi ant ar variabel penjelas saling bebas (independen).Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di masa sebe lumnya. Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Micr osoft Research memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter. Tetapi yang membuat algoritma Bayesian filtering ini popular adalah pendekatan yang dilakukan oleh Paul Graham. Dasar dari teorema naive digunakan dalam pemrograman adalah rumus Bayes berikut ini: P (A|B) = (P(B|A) * P(A))/P(B) Artinya Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A , dan peluang B. 2. Penggunaan Naive Bayes Contoh penggunaan Algoritma Naive Bayes antara lain: Untuk klasifikasi Dokumen ntuk deteksi SPAM atau fitering SPAM Dan masalah klasifikasi lainnya U
3. Algoritma Naive Bayes Teorema Bayes: P(C|X) = P(X|C)P(C) / P(X) Dimana : P(X) bernilai konstan utk semu a klas P(C) merupakan frek relatif sample klas C Dicari P(C|X) bernilai maksimum , sama halnya dengan P(X|C)P(C) juga bernilai maksimum Masalah menghitung P(X|C) tidak mungkin Apabila diberikan k atribut yang saling bebas (independence), nilai probabilitas dapat diberikan sebagai berikut. P(x1,,x k|C) = P(x1|C) x x P(xk|C) Jika atribut ke-i bersifat diskret, maka P(xi|C) dies timasi sebagai frekwensi relatif dari sampel yang memiliki nilai xi sebagai atri but ke i dalam kelas C. Namun jika atribut ke-i bersifat kontinu, maka P(xi|C) d iestimasi dengan fungsi densitas Gauss. 1 f ( x) x dengan 8 e 2 2 2 2 = deviasi standar.
= mean, dan
4. Contoh Misalnya terdapat ingin diketahui apakah suatu objek masuk dalam ketegori dipili h untuk perumahan atau tidak dengan algoritma Naive Bayes Classifier. Untuk mene tapkan suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan, tela h dihimpun 10 aturan. Ada 4 atribut yang digunakan, yaitu: harga tanah per meter persegi (C1), jarak daerah tersebut dari pusat kota (C2), ada atau tidaknya ang kutan umum di daerah tersebut (C3), dan keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4). a. Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) b. Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2) c. Probabilitas kemunculan setiap nilai untuk atribut Ada Angkutan Umum (C3) 9
d. Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C 4) e. Menghitung probabilitas setiap kejadian : Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, d an ADA angkutan umum, maka dapat dihitung: YA TIDAK =P(Ya| Tanah=MAHAL).P(Ya|Jar ak=SEDANG).P(Ya|Angkutan=ADA).P(Ya) = 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008 = P (Tidak| Tanah=MAHAL).P(Tidak|Jarak=SEDANG).P(Tidak|Angkutan=ADA).P(Ya) = 3/5 x 1 /5 x 3/5 x 5/10 = 2/125 = 0,036
Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likeliho od tersebut sehingga jumlah nilai yang diperoleh = 1 Probabilitas Ya = 0,008 0,182. 0,008 0,036 Klasifikasi : TIDAK Probabilitas Tidak = 0,036 0,818. 0,008 0,036 Untuk jenis data harga tanah dan jarak pusat kota yang kontinue, misalnya :
Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) 10
Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2)
Probabilitas kemunculan setiap nilai untuk atribut Angkutan Umum (C3)
Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk Perumahan (C4)
Apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka: f (C1 300 | ya ) 0,0021. 2 (168,8787)
2 1 e 2(168,8787) 300 212 2
2 1 f (C1 300 | tidak ) e 2( 261.9637) 0,0013. 2 (261.9637) 2 1 f (C 2 17 | ya ) e 2(3.9623) 0,0009. 2 (3.9623) 2 1 f (C 2 6,3008) 0,0633. 2 (6,3008) 300 17 435 4 ,8 2 2 2 Likelihood Ya
17 | tidak )
e 2(
17 17 , 2 Sehingga : = =
Likelihood Tidak
(0,0021) x (0,0009) x 4/5 x 5/10 0,000000756. = (0,0013) x (0,0633) x 2/5 x 5/10 = 0,000016458.
Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likeliho od tersebut sehingga jumlah nilai yang diperoleh = 1 Probabilitas Ya = 0,0000007 56 0,000000756 0,000016458 0,0439. Klasifikasi : TIDAK Probabilitas Tidak = 0,000016458 0,9561. 0,000000756 0,00001645 8 11
C. TIME SERIES ANALYSIS 1. Konsep Analisis Deret Waktu (Time Series Analysis) Dalam statistika dan pemrosesan sinyal, deret waktu adalah rangkaian data yang b erupa nilai pengamatan (observasi) yang diukur selama kurun waktu tertentu, berd asarkan waktu dengan interval yang uniform (sama).Beberapa Contoh data deret wak tu adalah produksi total tahunan produk pertanian indonesia, harga penutupan har ian sebuah saham di pasar modal untuk kurun waktu satu bulan, suhu udara per jam , dan penjualan total bulanan sebuah pasar swalayan dalam waktu satu tahun.Anali sis deret waktu (Bahasa Inggris: time series analysis) merupakan metode yang mep elajari deret waktu, baik dari segi teori yang menaunginya maupun untuk membuat peramalan (prediksi). Prediksi / Peramalan deret waktu adalah penggunaan model u ntuk memprediksi nilai di waktu mendatang berdasar peristiwa yang telah terjadi. Di dunia bisnis, data deret waktu digunakan sebagai bahan acuan pembuatan keput usan sekarang, untuk proyeksi, maupun untuk perencanaan di masa depan. Analisis data deret waktu pada dasarnya digunakan untuk melakukan analisis data yang memp ertimbangkan pengaruh waktu. Data-data yang dikumpulkan secara periodik berdasar kan urutan waktu, bisa dalam jam, hari, minggu, bulan, kuartal dan tahun, bisa d ilakukan analisis menggunakan metode analisis data deret waktu. Analisis data de ret waktu tidak hanya bisa dilakukan untuk satu variabel (Univariate) tetapi jug a bisa untuk banyak variabel (Multivariate). Selain itu pada analisis data deret waktu bisa dilakukan peramalan data beberapa periode ke depan yang sangat memba ntu dalam menyusun perencanaan ke depan. Beberapa bentuk analisis data deret wak tu dapat dikelompokkan ke dalam beberapa katagori : a. Metode Pemulusan (Smoothi ng) Metode pemulusan dapat dilakukan dengan dua pendekatan yakni Metode Perataan (Average) dan Metode Pemulusan Eksponensial (Exponential Smoothing). Pada metod e rataan bergerak dapat digunakan untuk memuluskan data deret waktu dengan berba gai metode perataan, diantaranya : (1) rata-rata bergerak sederhana (simple movi ng average), (2) rata-rata bergerak ganda dan (3) rata-rata bergerak dengan ordo lebih tinggi. Untuk semua kasus dari metode tersebut, tujuannya adalah memanfaa tkan data masa lalu untuk mengembangkan sistem peramalan pada periode mendatang. Pada metode pemulusuan eksponensial, pada dasarnya data masa lalu dimuluskan de ngan cara melakukan pembotan menurun secara eksponensial terhadap nilai pengamat an yang lebih tua. Atau nilai yang lebih baru diberikan bobot yang relatif lebih besar dibanding nilai pengamatan yang lebih lama. Beberapa jenis analisis data deret waktu yang masuk pada katagori pemulusan eksponensial, diantaranya : (1) p emulusan eksponensial tunggal, (2) pemulusan eksponensia tunggal: pendekatan ada ptif, (3) pemulusan eksponensial ganda : metode Brown, (4) metode pemulusan eksp onensial ganda : metode Holt, (5) pemulusan eksponensial tripel : metode Winter. Pada metode pemulusan eksponensial ini, sudah mempertimbangkan pengaruh acak, t rend dan musiman pada data masa lalu yang akan dimuluskan. Seperti halnya pada m etode rataan bergerak, metode pemulusan eksponensial juga dapat digunakan untuk meramal data beberapa periode ke depan. b. Model ARIMA (Autoregressive Integrate d Moving Average) Seperti halnya pada metode analisis sebelumnya, model ARIMA da pat digunakan untuk analisis data deret waktu dan peramalan data. Pada model ARI MA diperlukan penetapan karakteristik data deret berkala seperti stasioner, musi man dan sebagainya, yang memerlukan suatu pendekatan sistematis, dan akhirnya ak an menolong untuk mendapatkan gambaran yang jelas mengenai model-model dasar yan g akan ditangani. Hal utama yang mencirikan dari model ARIMA dalam rangkan anali sis data deret waktu dibandingkan metode pemulusan adalah perlunya pemeriksaan k eacakan data dengan melihat koefisien autokorelasinya. Model ARIMA juga bisa dig unakan untuk mengatasi masalah sifat keacakan, trend, musiman bahkan sifat sikli s data data deret waktu yang dianalisis. 12
c. Analisis Deret Berkala Multivariate Model ARIMA digunakan untuk analisis data deret waktu pada katagori data berkala (tunggal), atau sering dikatagorikan mod el-model univariate. Untuk data-data dengan katagori deret berkala berganda (mul tiple), tidak bisa dilakukan analisis menggunakan model ARIMA, oleh karena itu d iperlukan model-model multivariate. Model-model yang masuk kelompok multivariate analisisnya lebih rumit dibandingkan dengan model-model univariate. Pada model multivariate sendiri bisa dalam bentuk analisis data bivariat (yaitu, hanya data dua deret berkala) dan dalam bentuk data multivariate (yaitu, data terdiri lebi h dari dua deret berkala). Model-model multivariate diantaranya: (1) model fungs i transfer, (3) model analisis intervensi (intevention analysis), (4) Fourier An alysis, (5) analisis Spectral dan (6) Vector Time Series Models. 2. Penggunaan Analisis Deret Waktu (Time Series Analysis) Banyak persoalan dalam ilmu terapan yang datanya merupakan data deret waktu, mis alnya dalam bidang ilmu: Ekonomi : banyak barang terjual dalam setiap hari, keun tungan perusahaan dalam setiap tahun, total nilai ekspor dalam setiap bulan, per gerakan saham, dan lain-lain. Fisika : curah hujan bulanan, temperatur udara har ian, gerak partikel, dan lain-lain. Demografi : pertumbuhan penduduk, mortalitas dan natalitas, dan lain-lain Pengontrolan kualitas : proses pengontrolan kualit as produk, pengontrolan proses produksi, dan lainlain. Biomedis : denyut nadi, p roses penyembuhan, pertumbuhan mikroba, dan lain-lain 3. Algoritma Analisis Deret Waktu (Time Series Analysis) Dalam analisis data deret waktu, proses baku yang harus dilakukan adalah a. Defi nisikan Tujuan Peramalan Misalnya peramalan dapat digunakan selama masa pra-prod uksi untuk mengukur tingkat dari suatu permintaan. b. Buatlah diagram pencar (Pl ot Data) Misalnya memplot demand versus waktu, dimana demand sebagai ordinat (Y) dan waktu sebagai axis (X). Misalnya seperti gambar dibawah ini : Model Stasioner Model Trend Model Seasonal (Musiman) 13 Model Seasonal dan Trend
c. Memilih model peramalan yang tepat Melihat dari kecenderungan data pada diagr am pencar, maka dapat dipilih beberapa model peramalan yang diperkirakan dapat m ewakili pola tersebut. Model-model didalam peramalan data time series antara lai n : 1) Model Konstan (Constant Forecasting) Persamaan garis yang menggambarkan p ola konstan adalah: Y(t) = a , dimana a = konstanta Untuk mendapatkan nilai (a) m aka dapat didekati melalui turunan kuadrat terkecilnya (least square) terhadap ( a) sebagai berikut: n E i [Y (t ) 1 a ]2
Dimana : dE 0 da n n n diperoleh 2 [Y (t ) i 1 n Y (t ) i 1 i 1 maka n i Y (t ) 1 na 0 a a ] 0 ; 0 , karena
Y (t ) Sehingga: i 1 n a ; dimana n = jumlah periode peramalan. Jadi, apabila pola data berbentuk konstan, maka peramalannya dapat didekati deng an harga ratarata dari data tersebut. 2) Model Siklis (Musiman) Untuk pola data yang bersifat siklis atau musiman, per samaan garis yang mewakili dapat didekati dengan fungsi trigonometri, yaitu:
2 2
Dimana n adalah jumlah periode peramalan Jumlah Kuadrat Kesalahan Terkecil didef inisikan sebagai: n E i 1 [Y (t ) a u cos
(t ) t
u cos
v sin t n n
2 2
2 t
v sin t )] N N N 0 n 2 0 2 N 0 0 n 2
Bentuk diskriminannya adalah sebagai berikut: 2
1 n 2 cos t sin t 0
k k cos k sin 14
N 2 N t t 0 0
Maka: n k 0 0 0 n 2 0 0 k 2 0 0 n 2 0 k 2 0 n 0 0 k 2 0 n 0 0 0 n 0 2 0 2 0 sin t k cos t N N n 2 k sin N t 2 2 0 cos t k cos t N N n 2 k sin N t 2 1 k cos t N n 2 k sin N t 2
3) Model Regresi Liner Persamaan garis yang mendekati bentuk data linier adalah Y(t) = a + b(t) Konstanta a dan b ditentukan dari data mentah berdasarkan Kriteria Kuadrat Terke cil (least square criterion). Perhitungannya sebagai berikut: Anggaplah data men tah diwakili dengan (Yi,ti), dimana Yi adalah permintaan aktual di saat ti, dima na i = 1,2, .....,n. n Definisikan: E [Y (t ) a b(t )]2 i 1
Turunkan persamaan tersebut terhadap a dan b: n dE 0 yaitu 2 [Y (t ) a bt ] 0 diperoleh da i 1 n n Y (t ) i 1 n i dE n i tY (t ) a t 1 i 1 i 1 b t 2 0 ....(2) na b 1 n n 2 t 0 ...........(1) a bt ] 0 diperoleh db i 1
Dengan mengeliminasi persamaan (1) dan (2) diperoleh nilai a dan b: n i 1 n n i 1 n 2 n i 1 n i 1 n i 1 n tY (t ) a Y (t ) n b Y (t ) t t b
0 yaitu
t[Y (t )
t 2
Confidence Interval dan Prediction Interval Berdasarkan sebaran t dengan (n 2) d erajat bebas, maka pada persamaan linier [Y(t) = a + b(t)] dapat dibuat Selang Ke percayaan (confidence intervals) dengan (1- )100% bagi nilai tengah dari Y dan Sel ang Taksiran (prediction intervals) untuk setiap nilai Y, yaitu:
n t ) 2 ( t ) 2 2 t n
(t o
Prediction Interval untuk setiap nilai Y yaitu (1- )100% bila t = to. 15
Confidence Interval = Y(t)
t /2 SEE
n t ) 2 ( t ) 2 2 t n
(t o
4) Model Rata-Rata Bergerak (Moving Average) Metode rata-rata bergerak banyak di gunakan untuk menentukan trend dari suatu deret waktu. Dengan menggunakan metode rata-rata bergerak ini, deret berkala dari data asli diubah menjadi deret ratarata bergerak yang lebih mulus. Metode ini digunakan untuk data yang perubahanny a tidak cepat, dan tidak mempunyai karakteristik musiman atau seasonal. Model ra ta-rata bergerak mengestimasi permintaan periode berikutnya sebagai rata-rata da ta permintaan aktual dari n periode terakhir. Terdapat tiga macam model rata-rat a bergerak, yaitu: a) Simple Moving Average Simple Moving Average (SMAt) = Yt Yt 1 Yt 2 .... Yt n 1 n
b) Centered Moving Average Perbedaan utama antara Simple Moving Average dan Cent ered Moving Average terletak pada pemilihan observasi yang digunakan. Simple Mov ing Average menggunakan data yang sedang diobservasi tambah data sebelum observa si. Misalnya, menggunakan 5 periode moving average, maka untuk SMA menggunakan d ata periode ke-5 dan 4 data periode sebelumnya. Sebaliknya untuk CMA, Center berar ti rataan antara data sekarang dengan menggunakan data sebelumnya dan data sesud ahnya. Misalnya untuk 3 periode moving average, maka SMA menggunakan data period e 3 ditambah data sebelumnya dan data sesudahnya. Didefinisikan sebagai berikut: CMAt Yt (( L 1 / 2 ) ........Yt ........ Yt (( L 1) / 2 L
Dimana Yt adalah nilai tengah dari interval L data observasi. (L-1)/2 observasi merupakan data sebelum dan sesudahnya. Misalnya CMA 5 periode, maka Yt = Y5 maka intervalnya dimulai dari Y3 sampai Y7 . c) Weighted Moving Average Formula untu k Weighted Moving Average (WMAt): Ft w1 At dan n w i 1 i 1 5) Model Pelicinan/Pemulusan Eksponensia ( Exponential Smoothing) Dalam model ra ta-rata bergerak (Moving Average) dapat dilihat bahwa untuk semua data obesrvasi memiliki bobot yang sama yang membentuk rata-ratanya. Padahal, data observasi t erbaru seharusnya memiliki bobot yang lebih besar dibandingkan dengan data obser vasi di masa yang lalu. Hal ini dipandang sebagai kelemahan model peramalan Movi ng Average. Untuk itu, digunakanlah 16 1 w2 At 2 ....... wn At n
Prediction Interval = Y(t)
t /2SEE 1
metode Exponential Smoothing agar kelemahan tersebut dapat diatasi didasarkan pa da alasan sebagai berikut: Metode exponential smoothing mempertimbangkan bobot d ata-data sebelumnya dengan estimasi untuk Y(t+1) dengan periode (t+1) dihitung se bagai: Y (t 1) Y1 (1 )Y(t 1) (1 ) 2 Y(t 2) ...... Dimana disebut konstanta pelicinan dalam interval 0 < < 1. Rumus ini memperlihat kan bahwa data yang lalu memiliki bobot lebih kecil dibandingkan dengan data yan g terbaru. Rumus tersebut dapat disederhanakan sebagai berikut: Dengan nilai Y(1) untuk inisial ramalan didekati dengan nilai rata-ratanya ( Y ) Atau Y (t ) Y ( t 1) (Y(t 1) Y (t 1) ) Perlu diperhatikan bahwa penetapan nilai konstanta memiliki andil yang penting d alam menghasilkan hasil ramalan yang andal. Model Exponential Smoothing digunakan untuk peramalan jangka pendek. Selain model-model diatas masih banyak model lain yang sedang dikembangkan dalam rangka mencari model terbaik untuk peramalan. d. Lakukan Peramalan e. Hitung ke salahan ramalan (forecast error) Keakuratan suatu model peramalan bergantung pad a seberapa dekat nilai hasil peramalan terhadap nilai data yang sebenarnya. Perb edaan atau selisih antara nilai aktual dan nilai ramalan disebut sebagai kesalaha n ramalan (forecast error) atau deviasi yang dinyatakan dalam: et = Y(t) Y(t) Dimana : Y(t) = Nilai data aktual pada periode t Y(t) = Nilai hasil peramalan pad a periode t t = Periode peramalan Maka diperoleh Jumlah Kuadrat Kesalahan Perama lan yang disingkat SSE (Sum of Squared Errors) dan Estimasi Standar Error (SEE S tandard Error Estimated) SSE = n e(t)2 = [Y(t)-Y(t)]2
2 n 2 f. Pilih Metode Peramalan dengan kesalahan yang terkecil. Apabila nilai kesalahan t ersebut tidak berbeda secara signifikan pada tingkat ketelitian tertentu (Uji st atistik F), maka pilihlah secara sembarang metode-metode tersebut. 17
[Y (t ) SEE i 1
(t )]
g. Lakukan Verifikasi Untuk mengevaluasi apakah pola data menggunakan metode per amalan tersebut sesuai dengan pola data sebenarnya. 4. Contoh 1) Model Konstan (Constant Forecasting) Diberikan data permintaan pabrik konveks i PT Garmen Mandiri dari bulan Januari sampai Juni tahun 2006. Tentukan jumlah p ermintaan untuk lima bulan selanjutnya dengan menggunakan model konstan. Bulan ( t) Jan Feb Mar Apr Mei Jun Menghitung Konstanta a : Permintaan dalam unit (Y) 46 56 54 43 57 56 a= (46 56 54 43 57 56) 52 6
Jadi permintaan untuk bulan Juli sampai dengan November 2006 dapat didekati deng an harga rataratanya (a) yaitu 52 unit. 2) Model Siklis (Musiman) Diketahui data permintaan produksi chip pada tahun 2005 sebagai berikut: Bulan (t) Jan Feb Mar Apr Mei Jun Jul Aug Spt Oct Nov Des Permintaan dalam unit (Y) 73 83 92 107 114 129 91 108 116 79 92 93 1) Tentukan demand di tahun berikutnya dengan metode peramalan pola data siklis. k= h= t Y hk sin (2 t/12) cos (2 t/12) kcos( t/6) ksin( t/6) d -98 t - 6 Jan 1 72 -26 5 130 0.500 0.866 -22.52 -13.00 Feb 2 83 -15 -4 60 0.866 0.500 -7.50 -12.99 Mar 3 92 -6 -3 18 1.000 0.000 0.00 -6.00 Apr 4 107 9 -2 -18 0.866 -0.500 -4.50 7.79 18
May Jun Jul Aug Sept Oct Nov Dec Total 5 114 6 129 7 91 8 108 9 116 10 79 11 92 12 93 78 1176 16 31 -7 10 18 -19 -6 -5 0 -1 -16 0 0 1 -7 2 20 3 54 4 -76 5 -30 6 -30 6 105 0.500 0.000 -0.500 -0.866 -1.000 -0.866 -0.500 0.000 0.000 -0.866 -1.000 -0.866 -0.500 0.000 0.500 0.866 1.000 0.000 -13.86 -31.00 6.06 -5.00 0.00 -9.50 -5.20 -5.00 -98.01 8.00 0.00 3.50 -8.66 -18.00 16.45 3.00 0.00 -19.90
1 cos 0 6 0 t 6 sin 0 12 98.01 0 Maka: 0 t 6 0 0 0 6 0 6 0 1 19.90 0 0 98.01 6 0 16.33 cos cos 98.01 0 0 sin 98.01 0 19.90
Y (t ) d k = Y (t ) 98 16.33 cos t 3.32 sin t 6 6 Month January February March April May June July August September October Novemb er December Totals t 1 2 3 4 5 6 7 8 9 10 11 12 78 Demand (Y) 72 83 92 107 114 1 29 91 108 116 79 92 93 1176 Forecast (Y) 82.20 86.96 94.68 103.29 110.48 114.33 1 13.80 109.04 101.32 92.71 85.52 81.67 1176 19 Error (e) -10.20 -3.96 -2.68 3.71 3.52 14.67 -22.80 -1.04 14.68 -13.71 6.48 11.3 3 0 (Y - Y )^2 104.00 15.68 7.18 13.76 12.38 215.21 519.92 1.08 215.50 187.97 42.01 128.37 1463.07
t t (7056.72) sin 1432.80 k (432) cos sehingga persamaan garisnya :
0 6 6
12 0 0 0 0 0 0 12 0 0 12 0 t t k 6 6 0 0 6 19.90 0 6 19.90 0 6
t t k 3.32 sin 6 6
2) Hitunglah standard error estimate-nya! Standar Error Estimatenya (SEE) : N
2 n 2
1463.07
12.09 10
3) Model Regresi Liner Diketahui data pada tahun 2005 pada tabel berikut ini. Bulan (t) Jan Feb Mar Apr Mei Jun Jul Aug Spt Oct Nov Des Permintaan dalam unit (Y) 199 202 199 208 212 194 214 220 219 234 219 233 1) Tentukan demand tahun 2007 Month Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Des Bulan Ke1 2 3 4 5 6 7 8 9 10 11 12 t= 78 Demand 199 202 199 208 212 194 214 220 219 234 219 233 Y(t) = 2553 t^2 1 4 9 16 25 36 49 64 81 100 121 144 t^2 = 650 t*Y(t) 199 404 597 832 1060 1 164 1498 1760 1971 2340 2409 2796 t*Y(t) = 17030 b 12(17030) a (2553) 20 (3,05)(78) 192,95 12 (78)( 2553) 3,05 12(650) (78) 2
[Y (t ) SEE i 1
(t )]
Diperoleh Persamaannya : Y(t) = 193 + 3(t) sehingga permintaan pada tahun 2007 ad alah sebagai berikut: Bulan (t) Jan (25) Feb (26) Mar (27) Apr (28) Mei (29) Jun (30) Jul (31) Aug (32 ) Spt (33) Oct (34) Nov (35) Des (36) Permintaan dalam unit (Y) 268 271 274 277 280 283 286 289 292 295 298 301 2) Hitunglah SSE (Sum of Squared Errors) dan SEE-nya (Standard Error Estimated) Untuk menghitung SSE dan Standard Error Estimatenya (SEE) terlebih dahulu dihitu ng demand aktual dengan menggunakan persamaan (Y(t)) yang telah diketahui. Month Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Bulan Ke1 2 3 4 5 6 7 8 9 10 11 12 Total 78 Demand 199 202 199 208 212 194 214 220 219 234 219 233 2553 Ramalan 196 199 202 205 208 211 214 217 220 223 226 230 2553 [Y(t)-Y (t)]^2 9 9 9 9 16 2 89 0 9 1 121 49 9 530 Maka diperoleh Jumlah Kuadrat Kesalahan (SSE) = imasi Standard Errornya (SEE): t e(t)2 = [Y(t)-Y(t)]2 = 530 Dan Est
2 t 2
530
7,28 12
3) Tentukan Confidence Interval dan Prediction Interval dengan t = 18 serta dera jat = 0,01 Dari Persamaan : Y(t) = 193 + 3(t), maka untuk satu harga t = 18 diper oleh Y=247 dengan Standar Error Estimatenya (SEE)= 7.28 dan t /2 = t 0,005 = 3,169 untuk (n 2 = 12 2 =10) derajat bebas. 21
[Y (t ) SEE i 1
(t )]
n t ) 2 ( t ) 2 2 (3,169)(7,28) 6,5) 2 23,16 t /2SEE 1 12 (78) 2 650 12 t n
(t o
1 (18
n t ) 2 ( t ) 2 2 (3,169)(7,28) t n
(t o
1 1 (18 6,5) 2 46,32 12 78 2 650 12
4) Model Rata-Rata Bergerak (Moving Average) a) Simple MA Diberikan data harga p enutupan akhir minggu surat-surat berharga perusahaan Mandala yang bergerak dalam bidang maskapai penerbangan. Maka Moving Average 3 mingguan (SMA3) terhadap harga penutupan akhir minggu saha m diperoleh dari perhitungan berikut: Contoh perhitungan: SMAMinggu3 46 22 56 54 52 3
= 247
= 247
Prediction Interval = Y(t)
= 247
= 247
Confidence Interval = Y(t)
t /2 SEE
SMAmin ggu 4 56 54 43 51 3
Berdasarkan data di atas, maka ramalan untuk minggu-minggu mendatang (13) Y (12 t ) b) Centered MA 56
dengan t = 1,2,3 Contoh perhitungan: CMAMei 54 43 57 56 67 55,4 5
c) Weighted MA Diketahui data penjualan suatu departement store 4 bulan periode. Kemudian ingin meramalkan penjualan bulan ke-5 dengan moving average dimana men ggunakan bobot 40% actual sales untuk bulan saat ini (4), 30% untuk 2 bulan sebe lumnya, 20% untuk 3 bulan sebelumnya, dan 10% untuk 4 bulan sebelumnya. Data pen jualannya sebagai berikut: Peramalan weighted moving average dengan N = 4 adalah: F4 0.4(95) 0.3(105) 0.2(90) 0.1(100) 97.50 Maka ramalan bulan ke (5 + t) dengan t =1,2,3 adalah: F5 23 0.4(95) 0.3(105) 0.2(90) 0.1(100) 97.50
47
56
53 unit 3
5) Model Pelicinan/Pemulusan Eksponensia ( Exponential Smoothing) Tabulasi data berikut ini merupakan actual sales dalam unit untuk 6 bulan dan peramalan dimula i dari bulan januari. Month Actual Sales Jan 100 Feb 94 Marc 108 Apr 80 May 68 J une 94 1) Hitunglah estimasi nilai ramalannya menggunakan simple exponensial smoothing dengan = 0.2 jika inisial estimasi periode Januari = 80. Bulan January February March April May Ju ne July Total Actual Sales 100 94 106 80 68 94 542 Forecast (1) 80 84 86 90 88 8 4 86 598 Forecast(II) 80 84 86 90 88 84 86 598 Error 20 10 20 -10 -20 10 90 (Y-Y )^2 400 100 400 100 400 100 0 1500
2) Hitunglah Mean Absolute Deviation (MAD) Mean Absolute Deviation (MAD) n
n MAD 90 15 ; 6
dimana 1 MAD = 0.8 standard deviation diperoleh standar deviation = 12 24
Y (t ) MAD t 1
(t )
atau Y (t ) Y (t 1) (Y(t Y 2 0.2(100) 0.8(80) atau 1) Y (t 1) ) 84 Y 2 80 0.2(100 80) 84
D. CLUSTERING ANALYSIS 1. Konsep Analisis Cluster Analisis Cluster adalah suatu analisis statistik yang bertujuan memisahkan kasus /obyek ke dalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok ya ng satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antara anggota dalam kelompoknya atau dapat dikatakan variasi obyek/individu da lam satu kelompok yang terbentuk sekecil mungkin. Analisis Cluster merupakan met ode pengelompokan, di mana data yang akan dikelompokan belum membentuk kelompok sehingga pengelompokkan yang akan dilakukan bertujuan agar data yang terdapat di dalam kelompok yang sama relatif lebih homogen daripada data yang berada pada k elompok yang berbeda. Diharapkan dengan terbentuknya kelompok tersebut akan lebi h mudah menganalisa dan lebih tepat pengambilan keputusan sehubungan dengan masa lah tersebut. Analisis Cluster dilakukan untuk tujuan: (1) menggali data/eksplor asi data, (2) mereduksi data menjadi kelompok data baru dengan jumlah lebih keci l atau dinyatakan dengan pengkelasan (klasifikasi) data, (3) menggeneralisasi su atu populasi untuk memperoleh suatu hipotesis, (4) menduga karakteristik data-da ta. Pengelompokkan untuk mereduksi obyek-obyek dalam satu kelompok yang mempunya i sifat yang relatif sama (homogen) dapat dilakukan dengan dua cara, yaitu; Peng elompokkan Herarkhi. Pengelompokkan tak Herarkhi (non herarchi). Pengelompokkan Herarkhi digunakan apabila tidak ada informasi tentang jumlah kelompok yang akan diperoleh. Sedangkan pengelompokkan tak Herarkhi digunakan apabila seluruh obye k (n obyek) akan dikelompokkan dalam k kelompok yang telah ditentukan terlebih d ulu, dimana k < n. Metode yang digunakan dalam Cluster non herarchi adalah: - Me tode K-Rataan (K-Mean method) - Metode MANOVA (Manova method) Klasifikasi prosed ur pengelompokan dapat dilihat pada tabel dibawah ini : Keunggulan Analisis Cluster : Dapat mengelompokan data observasi dalam jumlah be sar dan variabel yang relatif banyak. Data yang direduksi dengan kelompok akan m udah dianalisis. Dapat dipakai dalam skala data ordinal, interval dan rasio Kele mahan Analisis Cluster Pengelompokan bersifat subyektifitas peneliti karena hany a melihat dari gambar dendrogram Untuk data yang terlalu heterogen antara objek penelitian yang satu dengan yang lain akan sulit bagi peneliti untuk menentukan jumlah kelompok yang dibentuk. Metode-metode dipakai memberikan perbedaan yang s ignifikan, sehingga dalam perhitungan biasanya masing-masing metode dibandingkan . Semakin besar observasi, biasanya tingkat kesalahan pengelompokan akan semakin besar (hasil penelitian) 2. Penggunaan Analisis Cluster Contoh aplikasi dengan analisis Cluster antara lain : Segmentasi Pasar Konsumen Memahami Perilaku Pembeli. Mengidentifikasi peluang produk baru 25
Memilih pasar mana yang akan dituju (targeting). Meringkas data atau Mereduksi d ata. 3. Algoritma Analisis Cluster a. Merumuskan permasalahan b. Memilih ukuran jarak atau kesamaan Ada berbagai me tode dan kriteria untuk melakukan pengelompokan. Salah satunya adalah secara mat ematis. Untuk mengelompokkan data atau permasalahan dibutuhkan suatu ukuran yang dapat menerangkan keserupaan atau kedekatan antara data. Jika data tersebut dap at dinyatakan dalam bentuk matrik X yang anggota-anggotanya Xij, i = 1..n dan k= 1..p maka beberapa ukuran kedekatan antara data ke i dan ke j ( dij ) adalah seb agai berikut : c. Memilih prosedur pengklusteran Secara umum terdapat dua metode pengelompokan data yaitu metode pengelompokan hirarki dan non hirarki. Metode pengelompokan hi rarki adalah metode pengelompokan data yang mengelompokan n buah data ke dalam n , n-1, 1 kelompok sedangkan metode pengelompokan non hirarki adalah metode penge lompokan yang mengelompokkan n data ke dalam k kelompok yang sudah ditentukan te rlebih dahulu. Di dalam metode pengelompokan data hirarki terdapat beberapa meto de yang dibedakan penentuan jarak antar kelompok yaitu : 1) Metode pautan tungga l (Single Lingkage) Jarak antar kelompok untuk metode ini didefinisikan sebagai jarak terdekat antar pasangan data yang terdapat pada dua kelompok tersebut. 2) Metode pautan lengkap (Complete Lingkage) Jarak antar kelompok untuk metode ini didefinisikan sebagai jarak terjauh antar pasangan data yang terdapat pada dua k elompok tersebut. 3) Metode pautan pusat (Centroid Lingkage) Jarak antar kelompo k untuk metode ini didefinisikan sebagai jarak terdekat antar pusat kelompok. 4) Metode pautan rerata (Average Lingkage) Jarak antar kelompok untuk metode ini d idefinisikan sebagai rerata jarak antar pasangan data yang terdapat pada dua kel ompok tersebut. Sedangkan didalam metode pengelompokan no hirarki terdapat Masal ah utama dalam metoda non hirarkhi adalah bagaimana memilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster terhadap hasil akhir analisis cluster . Bakal cluster pertama adalah observasi pertama dalam set data tanpa missing va lue. Bakal kedua adalah observasi lengkap berikutnya (tanpa missing data) yang d ipisahkan dari bakal pertama oleh jarak minimum khusus. Ada tiga prosedur dalam metode non hirarkhi, yaitu : 1) Sequential threshold Metode ini dimulai dengan m emilih bakal cluster dan menyertakan seluruh objek dalam jarak tertentu. Jika se luruh objek dalam jarak tersebut disertakan, bakal cluster kedua terpilih, kemud ian proses terus berlangsung seperti sebelumnya. 26
2) Parallel Threshold Metode ini memilih beberapa bakal cluster secara simultan pada permulaannya dan menandai objek-objek dengan jarak permulaan ke bakal terde kat. 3) Optimalisasi Metode ketiga ini mirip dengan kedua metode sebelumnya kecu ali pada penandaan ulang terhadap objek-objek. Hal penting lain adalah menentuka n jumlah cluster yang akan dibentuk. Sebenarnya tidak ada standar,prosedur pemil ihan tujuan eksis. Karena tidak ada kriteria statistik internal digunakan untuk inferensia, seperti tes signifikansipada teknik multivariat lainnya, para peneli ti telah mengembangkan beberapa kriteria dan petunjuk sebagai pendekatan terhada p permasalahan ini dengan memperhatikan substansi dan aspek konseptual. d. Menet apkan jumlah cluster Algoritma untuk metode pengelompokan hirarki adalah : 1) Te ntukan matrik jarak antar data atau kelompok 2) Gabungkan dua data atau kelompok terdekat ke dalam kelompok yang baru 3) Tentukan kembali matrik jarak tersebut. 4) Lakukan langkah 2 dan 3 sampai semua data masuk dalam satu kelompok Algoritm a untuk metode pengelompokan Non Hirarki adalah : 1) Tentukan jumlah cluster (K) , tetapkan pusat cluster sembarang. 2) Hitung jarak setiap data ke pusat cluster . 3) Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek. 4) Hitung pusat cluster. 5) Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data y ang berpindah ke cluster yang lain. e. interpretasi dan profil dari cluster Hasil pengelompokan tersebut dapat digam barkan dengan diagram pohon dendrogram atau vicicle plot. Jumlah kelompok yang t erjadi ditentukan dari dendrogram yang terjadi dan tergantung subyektivitas pene liti. Dibawah ini contoh dendrogram hasil output SPSS untuk 10 observasi dengan 3 variabel. Terlihat bahwa ada 2 kelompok yang dibentuk yaitu kelompok pertama t erdiri dari observasi ke 8, 9 10, 7 dan kelompok kedua yang terdiri dari observa si 1, 2, 4, 5, 6, dan 3. f. Menaksir reliabilitas dan validitas Yaitu melakukan pengujian terhadap kesalahan dan akurasi hasil pengelompokan dengan membandingkan antara data prediksi penge lompokan dan data sebenarnya. Proses validasi bertujuan menjamin bahwa solusi ya ng dihasilkan dari analisis cluster dapat mewakili populasi dan dapat 27
digeneralisasi untuk objek lain. Pendekatan ini membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak dapat dipraktekkan karena adanya k endala waktu dan biaya atau ketidaktersediaan ibjek untuk analisis cluster ganda . Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-c luster tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pa da karakteristik yang secara signifikan berbeda antar clustre dan memprediksi an ggota dalam suatu cluster khusus. Secara keseluruhan proses analisis cluster ber akhir setelah keenam tahap ini dilalui. Hasil analisis cluster dapat digunakan u ntuk berbagai kepentingan sesuai dengan materi yang dianalisis. 4. Contoh a. Metode Hirarki Proximity Matrix Contoh menghitung jarak antar titik : 1) Metode MIN (SINGLE LIN KAGE) Nearest Neighbour Dist({3,6},{2,5}) = min(dist(3,2),dist(3,5),dist(6,2),di st(6,5)) = min(0.15,0.25,0.28,0.39) = 0.15 28
2) Metode MAX (COMPLETE LINKAGE) Dist({3,6},{4}) = max(dist(3,4),dist(6,4)) = ma x (0.15,0.22) = 0.22 Dist({3,6},{2,5}) = max(dist(3,2),dist(3,5),dist(6,2),dist( 6,5)) = max(0.15,0.25,0.28,0.39) = 0.39 Dist({3,6},{1}) = max(dist(3,1),dist(6,1 )) = max(0.22,0.23) = 0.23 3) Metode AVERAGE Proximity dari 2 klaster adalah rata-rata jarak tiap 2 titik pada 2 klaster yang berbeda dist({3,6,4},{1}) = (0.22+0.37+0.23)/(3*1)= 0.28 dist({2,5},{1}) = (0.2 4+0.34)/(2*1) = 0.29 dist({3,6,4},{2,5}) = (0.15+0.28+0.25+0.39+0.20+0.29)/(3*2) = 0.26 29
4) Penerapan Jarak (8,5) terhadap (X1,X2) 13 13 25 17 45 52 37 10 2 50 32 13 8 41 1 17 0 5 5 20 5 4 25 5 X1 6 5 3 7 2 2 2 5 7 1 4 10 6 4 9 7 8 7 10 6 9 6 8 6 8 X2 2 7 5 1 2 1 4 4 6 4 9 8 7 10 5 9 5 7 4 9 7 5 10 4 5 Y + + + + + + + + + + ? Jadi titik (8,5) termasuk dalam kelompok (-) 12 10 8 Positive 6 Negative ? 4 2 0 0 2 4 6 8 10 12 30
b. Metode Non Hirarki (K-Means) Instance 1 2 3 4 5 6 7 X 2 2 5 6,5 7 3,5 4 Y 5 5,5 3,5 2,2 3,3 4,8 4,5 Pilih K=2 Pilih titik pusat klaster misalnya C1(3,4) dan C2(6,4) Iterasi 1 Hitun g jarak masing-masing titik terhadap tiitk pusat C1 (3,4) Instance 1 2 3 4 5 6 7 X 2 2 5 6,5 7 3,5 4 Y 5 5,5 3,5 2,2 3,3 4,8 4,5
Jarak ke C1 (2 3) + (5 4) (2 3) + (5,5 4) (5 3) + (3,5 4) (6,5 3) + (2,2 4) (7 3) + (3, (3,5 3) + (4,8 4) (4 3) + (4,5 4) Di 1,41 1,80 2,06 3,94 4,06 0,94 1,12 Hitung jarak masing-masing titik terhadap tiitk pusat C2 (6,4) Instance 1 2 3 4 5 6 7 X 2 2 5 6,5 7 3,5 4 Y 5 5,5 3,5 2,2 3,3 4,8 4,5
Jarak ke C2 (2 6) + (5 4) (2 6) + (5,5 4) (5 6) + (3,5 4) (6,5 6) + (2,2 4) (7 6) + (3, (3,5 6) + (4,8 4) (4 6) + (4,5 4) Di 4,12 4,27 1,18 1,86 1,22 2,62 2,06 Bandingkan nilai jarak terhadap C1 dan C2 Instance 1 2 3 4 5 6 7 Di,c1 1,41 1,80 2,06 3,94 4,06 0,94 1,12 Di,c2 4,12 4,27 1,18 1,86 1,22 2,62 2,06 Jadi klaster 1 berisi instance 1,2,6,7 dan klaster 2 berisi instance 3,4,5
31
Hitung tiitk pusat baru
Iterasi 2 Dengan cara yang sama seperti pada iterasi 1 , diperoleh : Instance 1 2 3 4 5 6 7 Di,c1 0,76 0,96 2,65 4,62 4,54 0,76 1,31 Di,c2 4,62 4,86 1,27 0,86 0,88 3,22 2,63 Dari perbandingan ini diketahui bahwa anggota klaster 1 adalah instance 1,2, 6 d an 7 sedangkan anggota klaster 2 adalah instance 3,4 dan 5. Karena anggota klast er tidak berubah, maka titik pusat yang baru pu tidak berubah sehingga iterasi d apat dihentikan Jadi iterai berhenti hingga nilai C1 dan C2 tidak berubah (atau memenuhi treshold yang diinginkan) Hitung SSE = Sum Squared Error, digunakan unt uk menentukan hasil klasterisasi yang lebih baik,jika inisialisasi centroidnya b erbeda-beda K SSE dist (ci , x ) 2 i 1 x Ci ci 1 mi x Ci x
Makin kecil nilai SSE, makin baik Salah satu teknik untuk memperkecil nilai SSE adalah dengan memperbesar nilai K 32

Algoritma Data Mining Decision Tree Naive Bayes DLL

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Algoritma Data Mining Decision Tree Naive Bayes DLL

Diunggah oleh

Hak Cipta:

Format Tersedia

ALGORITMA DATA MINING A. DECISION TREE 1.

Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) 10

Probabilitas kemunculan setiap nilai untuk atribut Angkutan Umum (C3)

2 1 e 2(168,8787) 300 212 2

Dimana : dE 0 da n n n diperoleh 2 [Y (t ) i 1 n Y (t ) i 1 i 1 maka n i Y (t ) 1 na 0 a a ] 0 ; 0 , karena

Bentuk diskriminannya adalah sebagai berikut: 2

Maka: n k 0 0 0 n 2 0 0 k 2 0 0 n 2 0 k 2 0 n 0 0 k 2 0 n 0 0 0 n 0 2 0 2 0 sin t k cos t N N n 2 k sin N t 2 2 0 cos t k cos t N N n 2 k sin N t 2 1 k cos t N n 2 k sin N t 2

Dengan mengeliminasi persamaan (1) dan (2) diperoleh nilai a dan b: n i 1 n n i 1 n 2 n i 1 n i 1 n i 1 n tY (t ) a Y (t ) n b Y (t ) t t b

Confidence Interval = Y(t)

Prediction Interval = Y(t)

t t (7056.72) sin 1432.80 k (432) cos sehingga persamaan garisnya :

2) Hitunglah standard error estimate-nya! Standar Error Estimatenya (SEE) : N

n t ) 2 ( t ) 2 2 (3,169)(7,28) 6,5) 2 23,16 t /2SEE 1 12 (78) 2 650 12 t n

1 1 (18 6,5) 2 46,32 12 78 2 650 12

Prediction Interval = Y(t)

Confidence Interval = Y(t)

dengan t = 1,2,3 Contoh perhitungan: CMAMei 54 43 57 56 67 55,4 5

2) Hitunglah Mean Absolute Deviation (MAD) Mean Absolute Deviation (MAD) n

dimana 1 MAD = 0.8 standard deviation diperoleh standar deviation = 12 24

atau Y (t ) Y (t 1) (Y(t Y 2 0.2(100) 0.8(80) atau 1) Y (t 1) ) 84 Y 2 80 0.2(100 80) 84

Hitung tiitk pusat baru

Anda mungkin juga menyukai