Anda di halaman 1dari 68

-0-

DATA MINING
Kode Matakuliah : SCAA 3806 Semester, SKS : V, 2

Oleh : Drs. Ignatius Suraya, M.Cs

JURUSAN MATEMATIKA FAKULTAS SAINS TERAPAN INSTITUT SAINS & TEKNOLOGI AKPRIND YOGYAKARTA
2011

Diktat Matakuliah Datamining

-1-

I. PENGANTAR
1.1. Pengertian Data Mining Data Mining sering juga disebut knowledge discovery in database (KDD),sebagai salah satu cabang ilmu computer yang relative baru mempunyai potensi pengembangan yang sangat besar. Karena data menyangkut langsung pada sebuah system aplikasi. Data Mining sendiri merupakan sebuah proses ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar. Istilah data mining memiliki padanan, seperti recognition. Kedua istilah tersebut sebenarnya memiliki ketepatannya masing-masing, istilah knowledge discovery atau penemuan pengetahuan tepat digunakan karena tujuan utama dari data mining memang untuk mendapatkan pengetahuan yang masih tersembunyi di dalam bongkahan data. Istlah pattern recognition atau pengenalan pola pun tepat untuk digunakan karena pengetahuan yang hendak digali memang berbentuk pola-pola yang mungkin juga masih perlu digali dari dalam bongkahan data yang tengah dihadapi. Jadi apakah sebenarnya data mining itu ?. Banyak definisi untuk istilah ini dan belum ada yang dibakukan atau disepakati semua pihak. Namun istilah ini mempunyai hakikat (notion) sebagai disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau informasi yang kita miliki. Kegiatan inilah yang menjadi garapan atau perhatian utama dari disiplin ilmu data mining. 1.2. Fungsi-fungsi Dalam Data Mining Fungsi dan subkegiatan yang ada di dalam Bab ini knowledge discovery ataupun pattern

Fungsi :

Diktat Matakuliah Datamining

-2Menurut Larose (2005) terdapat enam fungsi dalam data mining yaitu 1. Fungsi deskripsi (description) 2. Fungsi estimasi (estimation) 3. Fungsi prediksi (prediction) 4. Fungsi klasifikasi (classification) 5. Fungsi pengelompokan 6. Fungsi asosiasi (association) Menurut Berry dan Browne (2006) 1. Fungsi minor (Fungsi deskripsi, Fungsi estimasi dan Fungsi prediksi) 2. Fungsi mayor (Fungsi klasifikasi, Fungsi pengelompokan dan Fungsi asosiasi)

Diktat Matakuliah Datamining

-3-

II. FUNGSI MINOR UNTUK FUNGSI DESKRIPSI


Sebagai gambaran kasus akan diberikan data berat badan para siswa di daerah pedesaan yang orang tuanya kurang memperhatikan gizi anak diambil 10 anak secara acak dan berat badan para siswa di daerah perkotaan yang orang tuanya sangat memperhatikan memperhatikan gizi anak diambil 10 anak secara acak Tabel 2.1. Data berat badan 10 siswa di pedesaan dan di perkotaan Nomor Siswa 1 2 3 4 5 6 7 8 9 10 Berat badan (di pedesaan) 32,2 kg 35,0 kg 30,8 kg 31,4 kg 30,8 kg 31,5 kg 31,5 kg 33,7 kg 33,0 kg 32,7 kg Berat badan (di perkotaan) 38,8 kg 39,5kg 41,1 kg 34,8 kg 44,2 kg 41,1 kg 43,7 kg 41,3 kg 35,0 kg 44,9 kg

Ketika diberi sekumpulan data terkadang agak sukar bagi kita untuk menangkap arti kumpulan data tersebut. Sekumpulan angka-angka tersebut perlu dirangkum sedemikian rupa agar dapat "berbicara" sehingga kita memiliki gambaran mengenai kumpulan data tersebut. Lebih jauh bayangkan seandainya peneliti memutuskan untuk melibatkan 10.000 siswa. Peneliti tersebut melibatkan begitu banyak orang agar hasil penelitiannya lebih dapat dipercaya. Akibatnya kita justru akan dihadapkan pada 10.000 angka! Menelusuri deretan angka sebanyak itu dengan mata manusia tentu tidak akan membawa manfaat apa pun. Oleh karena itu kita memerlukan suatu cara untuk menggambarkan sekumpulan data secara ringkas. Cara tersebut dinamakan deskripsi yang merupakan fungsi minor pertama dari data mining dan akan dibahas pada bab ini. Subbab selanjutnya akan membahas berbagai cara untuk mendeskripsikan data. Di dalam pembahasan tersebut juga akan diberikan penjelasan mengenai istilah-istilah yang digunakan dalam fungsi deskripsi serta input dan output fungsi ini. Selanjutnya pengetahuan yang dihasilkan oleh fungsi deskripsi ini akan diinterpretasikan maknanya. Berbagai Cara Deskripsi Dan Pengetahuan Yang Dihasilkan Banyak cara dapat digunakan untuk memberikan gambaran secara ringkas bagi sekumpulan data yang besar jumlahnya dan banyak macamnya. Artinya terdapat

Diktat Matakuliah Datamining

-4banyak cara untuk memberikan deskripsi terhadap sekumpulan data. Subbab ini akan membahas tiga cara yaitu deskripsi grafis, deskripsi lokasi, dan deskripsi keragaman. 2.1. Deskripsi Grafis Bagai petikan lirik sebuah lagu "A Picture Paints a Thousand Words", pada dasarnya sebuah gambar memang lebih mudah dicerna oleh mata kita dari pada deretan kata atau deretan angka. Cara deskripsi grafis merupakan cara untuk mendeskripsikan data dalam bentuk gambar yang sesungguhnya. Dua gambar yang umum digunakan dalam deskripsi grafis adalah diagram titik (dot diagram) dan histogram. A. Diagram Titik Pada diagram jenis ini, setiap data digambarkan sebagai sebuah titik (dot). Mengambil data Tabel 2.1, setiap data berat badan Kelas di Pedesaan digambarkan sebagai titik penuh sementara Kelas di Perkotaan berupa titik berongga.

Gambar 2.1 Diagram titik untuk berat badan 10 siswa kelas enam di pedesaan dan di perkotaan Pengetahuan apakah yang diperoleh? Kita dapat melihat data Kelas di Pedesaan (titik penuh) banyak berkumpul di sekitar 30 -35 kg. Sementara Kelas di Perkotaan (titik berongga) cenderung berkumpul di atas 35 kg namun nilainya lebih beragam dengan sebaran yang lebih luas.

B. Histogram U n t u k m e m a h a m i d e n g a n m u d a h c a r a d e s k r i p s i g r a f i s menggunakan histogram perhatikan ilustrasi berikut. Misalnya kita diberi data berat badan dari Kelas di pedesaan yang telah disajikan pada Tabel 2.1. namun kali ini data tersebut diperluas hingga ada 30 siswa seperti yang tampak pada Tabel 2.2. Nomor Siswa 1 2 3 4 5 6 7 Berat badan (di pedesaan) 32,2 kg 35,0 kg 30,8 kg 31,4 kg 30,8 kg 31,5 kg 31,5 kg Nomor Siswa 11 12 13 14 15 16 17 Berat badan (di pedesaan) 32,7 kg 35,2 kg 30,5 kg 31,8 kg 30,8 kg 31,5 kg 31,7 kg Nomor Siswa 21 22 23 24 25 26 27 Berat badan (di pedesaan) 33,7 kg 35,7 kg 30,0 kg 32,2 kg 34,2 kg 33,1 kg 31,5 kg

Diktat Matakuliah Datamining

-58 9 10 33,7 kg 33,0 kg 32,7 kg 18 19 20 33,2 kg 33,0 kg 32,5 kg 28 29 30 33,5 kg 33,7 kg 32,9 kg

Langkah pertama untuk membuat histogram adalah dengan membuat beberapa interval yang lebarnya sama. Misalnya, berdasarkan data pada Tabel 2.2, lima interval masing-masing dengan rentang 1 kg akan dibuat seperti dalam Tabel 2.3 berikut. Interval 30,00 31,00 31,01 32,00 32,01 33,00 33,01 34,00 34,01 35,00 35,01 36,00 Tabel 2.3. Interval berat badan siswa di Pesedaan Langkah kedua hitung seberapa banyak data yang menjadi a n g g o t a t i a p i n t e r v a l . P e l a k s a n a a n l a n g k a h k e d u a i n i memberikan hasil seperti yang terlihat pada Tabel 2.4.. Interval 30,00 31,00 31,01 32,00 32,01 33,00 33,01 34,00 34,01 35,00 35,01 36,00 Frekuensi 5 7 6 8 2 2

Tabel 2.4. Interval dan frekuensi berat badan siswa di Pesedaan

Diktat Matakuliah Datamining

-6La n g k a h k e t i g a a d a l a h p e m b u a t a n h i s t o g r a m i t u s e n d i r i berdasarkan data yang ada pada Tabel 2.4, hasilnya adalah Gambar 2.2.

30,00 31,00

31,01 32,00

32,01 33,00

33,01 34,00

34,01 35,00

35,01 36,00

Gambar 2.2. Histogram untuk berat badan 30 siswa di Pesedaan Pengetahuan apakah yang diperoleh? Dengan melihat batang-batang tersebut kita dapat melihat lokasi kecenderungan mengumpulnya data dari batang tertinggi. Histogram seperti ini menunjukkan keberagaman data yang relatif rendah sebaliknya histogram yang pendek-melebar menunjukkan data yang beragam dan menyebar luas.

2.2. Deskripsi Lokasi Meskipun deskripsi grafts sudah menggambarkan karakteristik data, sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Oleh karena itu kita memerlukan sebuah angka yang cukup dapat mewakili data yang ada serta dapat diperoleh dengan cara yang lebih praktis dari pada menggambar. Wakil tersebut dinamakan lokasi karena dapat memberikan informasi tentang data dari posisi tempat tertentu. Ada beberapa ukuran yang umum digunakan untuk menyatakan lokasi tersebut, yang akan dibahas pada subbab ini. A. Rata-rata (Mean) Sesuai dengan namanya rata-rata berarti membuat menjadi rata-rata dan nilai perataan tersebut dianggap sebagai lokasi pusat titik berat atau titik kesetimbangan data. Dapat dibayangkan satu orang memiliki gelas berisi air 10 liter dan orang lainnya memiliki gelas kosong (berisi 0 liter air). Agar menjadi rata orang pertama menuang 5 liter air ke gelas orang kedua sehingga keduanya kini memiliki air 5 liter. Secara matematis bila kita memiliki nilai observasi x1, x2, ..., xn , maka rata-ratanya adalah
Diktat Matakuliah Datamining

-7-

X =

n ( x1 + x2 + ..... + xn ) X = i n i =1 n

2.1

Secara sederhana persamaan tersebut berarti menjumlahkan semua data dan dibagi dengan banyaknya data. Mari kita terapkan ukuran tersebut pada data dari Tabel 2.1. Apabila kita menjumlahkan seluruh data Kelas di Pedesaan hasil yang diperoleh : 322,6 kg sehingga rata-rata adalah 322,6/10= 32,26 kg. Sedangkan apabila kita menjumlahkan seluruh data Kelas di Perkotaan hasil yang diperoleh adalah 404,4 sehingga rata-rata adalah 404,4/10 = 40,44 kg. Pengetahuan apakah yang diperoleh? Menggunakan bahasa sehari-hari, hasil di atas menyatakan bahwa pada umumnya siswa Kelas di pesedaan memiliki berat badan 32,26 kg. Siswa kelas
tersebut lebih pendek daripada siswa Kelas di Perkotaan yang pada umumnya memiliki berat badan 40,44

kg

B. Median (Nilai Tengah)

Dengan ukuran ini, kita mencari nilai observasi yang secara harafiah bertempat di tengah-tengah. Langkah pertama yang tidak boleh dilupakan adalah mengurutkan semua data dari yang terkecil hingga yang terbesar. Sekali lagi, mari kita terapkan ukuran ini pada data Tabel 2.1 untuk siswa Kelas di pedesaan. Data asli : 32,2; 35,0; 30,8; 31,4; 30,8; 31,5; 31,5; 33,7; 33,0; 32,7 Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0; Karena kita memiliki 10 buah data (genap) maka lokasi tengah terletak di antara data ke-5 dan data ke-6. Bayangkan lima jari tangan kiri Anda sebagai lima data pertama dan lima jari tangan kanan Anda sebagai lima data selanjutnya posisi tengahnya tentu ada di ruang kosong di antara kedua jempol Anda. Akan tetapi apabila Anda hanya memiliki 5 buah data (ganjil) dan diibaratkan sebagai 5 jari di tangan kiri Anda maka posisi tengahnya tepat berada di jari ke-3 yaitu jari tengah Anda. Secara matematis, apabila Anda memiliki n buah data, maka mediannya terletak pada data ke: [(n+l)/2] apabila n adalah bilangan ganjil. Sebaliknya, apabila n adalah bilangan genap maka mediannya dihitung dengan cara menjumlahkan data ke: [n/2] dengan data ke: [(n/2)+1], kemudian membagi hasil jumlah tersebut dengan angka 2. jika diterapkan, data terurut di atas akan memberikan hasil berikut: Median = [(Data ke-5 + Data ke-6)/2] = [(31,5+ 31,5)/2] = 31,5 kg Pengetahuan apakah yang diperoleh? Apabila kita mengurutkan data berat badan siswa di Kelas di Pedesaan dari yang teringan
Diktat Matakuliah Datamining

-8sampai yang terberat, kemudian urutan tersebut kita bagi dua tepat di tengah-tengah, kita akan memperoleh angka (30,8 + 35,0) / 2 = 32,9 kg Adapun keuntungan penggunaan median dibandingkan dengan rata-rata adalah median tidak terlalu terpengaruh oleh adanya nilai ekstrem. Sebaliknya, rata-rata dapat terpengaruh oleh nilai ekstrem. Sebagai contoh, mari kita bandingkan data asli yang kita gunakan untuk mencari median dengan data yang dimodifikasi: Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0; 32,26 Median = 31,5) (Rata-rata =

C. Modus

Dengan ukuran ini kita dapat mencari nilai observasi yang paling sering muncul. Apabila terdapat dua atau lebih nilai yang kekerapan munculnya sama semua nilai-nilai tersebut juga disebut modus Sebagai contoh, Data terurut: 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0; Modus data tersebut adalah 30,8 dan 31,5 karena paling sering muncul yaitu masingmasing sebanyak 2 kali. Pengetahuan apakah yang diperoleh? Kelas di Pedesaan mempunyai banyak siswa yang memiliki berat badan 30,8 & 31,5 kg. Apa kegunaan penggunaan modus? Adakalanya modus lebih mencerminkan lokasi kecenderungan berkumpulnya sebagian besar data dibandingkan ukuran-ukuran lainnya. Contohnya: Sebuah perusahaan menyatakan bahwa rata-rata gaji karyawannya adalah Rp 10 juta. Kenyataannya 90 orang digaji sekitar Rp l juta saja dan hanya ada 10 orang yang digaji Rp100 juta. Dibandingkan rata-rata informasi yang lebih berguna dan tidak menyesatkan kita adalah bahwa sebagian besar (modus) karyawan digaji sekitar Rp l juta.

D. Kuartil

Apabila pada median kita mencari nilai yang terletak tepat di tengah-tengah data maka pada kuartil kita membagi seluruh data menjadi empat bagian dan mencari nilai di tiap seperempat bagian (kuartil) tersebut. Secara sederhana coba bayangkan semua jari tangan Anda sebagai 10 buah data. Kuartil pertama adalah jari tengah tangan kiri Anda kuartil kedua adalah ruang kosong di antara kedua jempol Anda dan kuartil ketiga adalah jari tengah tangan kanan Anda. Ketiga kuartil dapat dinotasikan sebagai q1 , q2 , dan q3 . Jelas bahwa kuartil kedua q2 juga disebut median sebagai contoh mari kita lihat Tabel 2.1.

Diktat Matakuliah Datamining

-9Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0; q1 Kuartil pertama = 32,2 kg Kuartil kedua = [(31,5+ 31,5)/2] = 31,5 kg (sama dengan median) Kuartil ketiga = 33,0 kg Pengetahuan apakah yang diperoleh? Apabila kita mengurutkan data berat badan siswa di Pedesaan biasa dari yang terpendek sampai yang tertinggi kemudian urutan tersebut kita bagi menjadi empat bagian sama besar maka akan diperoleh angka 32,2 kg, 31,5 kg dan 33,0 kg. q2 q3

E. Persentil

Lebih jauh lagi apabila semua data kita bagi menjadi 100 bagian maka kita akan memperoleh ukuran persentil. Median merupakan kasus khusus persentil yaitu p 0.50 . Kuartil juga merupakan kasus khusus persentil, ql adalah p0.25, q2 adalah p0.50, dan q3 adalah p0.75. Mari kita coba mencari persentil: 10, 46, dan 83 dari data Tabel 2.1. Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0; q0,10 q0,46 q0,83

Persentil - 10 = [(30,8 + 30,8)/2] = 30,8 (di antara data ke-1 dan data ke-2) Persentil - 46 = 31,5 Persentil - 83 = 33,7 Pengetahuan apakah yang bisa diperoleh? Apabila kita mengurutkan data dari yang terpendek sampai yang tertinggi, kemudian urutan tersebut kita "belah seratus bagian" sama besar, maka akan diperoleh angka-angka pada belahan tersebut.

2.3. Deskripsi Keberagaman

Meski deskripsi lokasi sudah memberikan gambaran tentang lokasi pusat data (rata-rata, median, modus), kita masih belum memiliki gambaran atas keberagaman data. Perhatikan dua kelompok data pada contoh sederhana berikut. Contoh Dua kelompok data Kelompok I : 6, 6, 7, 7, 7, 8, 8 (rata-rata = 7, median = 7, modus = 7) Kelompok II : 0, 1, 3, 7, 7, 12, 19 (rata-rata = 7, median = 7, modus = 7) Meskipun ketiga ukuran lokasi untuk kedua kelompok tepat sama, apakah kedua
Diktat Matakuliah Datamining

- 10 kelompok data tersebut dapat dikatakan serupa? Sama sekali tidak! Perhatikan bahwa data di kelompok I cenderung terkumpul di sekitar 7, sementara data di kelompok II begitu beragam dan menyebar lebar hingga menyentuh 0 dan 19. Oleh karena itu diperlukan pula ukuran keberagaman untuk melengkapi gambaran kita terhadap data yang ada. Tiga ukuran keberagaman yang akan dibahas adalah range , varians , dan
standar deviasi.

A. Range (Rentang)

Ukuran sebaran ini menyatakan besarnya rentang jarak antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif lebih beragam dan sebaliknya. Kita gunakan data Contoh di atas : Kelompok I : 6, 6, 7, 7, 7, 8, 8 Kelompok II : 0, 1, 3, 7, 7, 12, 19 Range data Kelompok I = 8 - 6 = 2 Range data Kelompok II = 19 - 0 = 19

Pengetahuan apakah yang diperoleh? Kelompok II memiliki data yang lebih beragam dengan range yang jauh lebih besar dari pada Kelompok I. Akan tetapi karena ukuran ini hanya mengambil dua data ekstrem adakalanya sulit untuk dijadikan ukuran unik untuk menilai keberagaman data.

B. Varians dan Standart Deviasi

Kita sudah melihat bahwa range tidak dapat dijadikan pijakan yang kokoh untuk menilai keberagaman data. Oleh karena itu ukuran varians yang menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (rata-rata) sering kali digunakan. Secara matematis hal tersebut diru,uskan menjadi :

s =

(X
i =1

X)

n 1

.2.2

Secara sederhana rumus tersebut berarti setiap data observasi dikurangi dengan rata-rata seluruh data. Setiap hasil pengurangan tersebut dikuadratkan, kemudian semuanya dijumlahkan. Terakhir penjumlahan tersebut dibagi dengan (n-1), dengan n yang menyatakan banyaknya data. Contoh : dua kelompok data yang dimodifikasi Kelompok I : 6, 15, 15, 16, 16, 16, 25 Range Kelompok I = 25 6 = 19

Diktat Matakuliah Datamining

- 11 Kelompok II : 0, 1, 3, 7, 7, 12, 19 Range Kelompok II = 10 0 = 19

Tabel 2.5 . Perincian perhitungan untuk Kelompok I dan II Data ke- Kelompok 1 Kolom (1) Kelompok II 1 6 91,61 0 2 15 0,33 1 3 15 0,33 3 4 16 0,18 7 5 16 0,18 7 6 16 0,18 12 7 25 88,90 19 Jumlah 109 181,71 49 Rata-rata 15,57 7 Kolom (2) 49 36 16 0 0 25 144 270

Sebagai contoh perhitungan: Kolom (1) baris ke-1 diperoleh dengan cara: (6 -15,57) 2 = 91,61 dan seterusnya untuk baris 2 - 7 Kolom (2) baris ke 6 diperoleh dengan cara: (12 - 7) 2 = 25. dan seterusnya untuk baris yang lain. Varians Kelompok I diperoleh dengan cara membagi jumlah Kolom (1) dengan 6 (karena ada 7 buah data, sehingga (n - 1) = 6). Varians Kelompok II diperoleh dengan cara membagi jumlah Kolom (2) dengan 6. Hasilnya adalah sebagai berikut: Varians Kelompok I = 181,71/6 = 30,3 Varians Kelompok 11 = 270/6 = 45 Pengetahuan apakah yang diperoleh? Data pada Kelompok II berjarak relatif lebih jauh dengan pusatnya (dalam hal ini rata-rata) dari pada data pada Kelompok I sehingga variansnya lebih besar. Dengan kata lain, data pada Kelompok II lebih beragam dibandingkan dengan data pada Kelompok I. Seandainya data di atas memiliki satuan cm, maka varians memiliki satuan cm 2 . Hal ini menyebabkan varians menjadi kurang sinkron dengan ukuran-ukuran lain, seperti rata-rata, modus, persentil, range, dan lain-lain. Akibatnya dibuatlah ukuran standar deviasi yang merupakan akar kuadrat varians. Jika ukuran starndar deviasi kita terapkan pada hasil perhitungan varians di atas, maka standar deviasi Kelompo I =
30,29 = 5,5 dan Kelompok I1 =

45 = 6,7.

Diktat Matakuliah Datamining

- 12 Pengetahuan apakah yang diperoleh? Data pada Kelompok II lebih beragam dibandingkan dengan Kelompok I. standar deviasi memiliki satuan yang sama dengan data asalnya. Apabila data di atas memiliki satuan cm maka standar deviasinya pun memiliki satuan cm. Dengan demikian hasil yang muncul menjadi lebih mudah dicerna maknanya.

SOAL LATIHAN

1. Berikut adalah catatan temperatur tertinggi tiap jam di dalam sebuah lemari pendingin: 4,2; 4,7; 4,7; 5,0; 3,8; 3,6; 3,0; 5,1; 3,1; 3,8; 4,8; 4,0; 5,2; 4,3; 2,8; 2,0; 2,8; 3,3; 4,8; dan 5,0 (dalam derajat Celcius). a. b. c. Gambar dan interpretasikan dot diagram dan histogram untuk data tersebut. Hitung dan interpretasikan rata-rata, median, dan modus data tersebut. Hitung dan interpretasikan range, varians, dan standar deviasi data tersebut.

2. Kurangi setiap observasi pada soal nomor 1 dengan angka 1 , 0 . K e m u d i a n , l a k u k a n u l a n g 1 ( a ) - ( c ) . A m a t i d a n bandingkan hasilnya dengan sebelum dikurangi 1,0. Seandainya Anda memilih sembarang angka, apakah akan muncul pengaruh yang sama?

Diktat Matakuliah Datamining

- 13 -

III. FUNGSI MINOR UNTUK FUNGSI ESTIMASI


Sebagai gambaran kasus akan diberi data volume air minum botol yang diisi secara otomatis. Hasil pengukuran volume air di dalam 12 botol yang diambil secara acak sebagai sampel ditampilkan pada Tabel 3.1. Tabel 3.1. Data volume air minum di dalam botol Nomor Botol 1 2 3 4 5 6 7 8 9 10 11 12 Volume Air (ml) 2016 2025 1968 2007 2031 2055 2039 1981 1975 1964 2036 1987

Volume yang sebenarnya diharapkan untuk setiap botol adalah 2 liter (2.000 ml). Data di atas menunjukkan bahwa mesin pengisi otomatis tersebut tidak mengisi tiap botol dengan volume air yang tepat sama seperti yang diharapkan. Jadi jika Anda diberi pertanyaan Pada umumnya berapakah volume air yang ada di dalam botol? bagaimanakah Anda harus menjawabnya? Pertanyaan tersebut tidak dapat kita jawab dengan baik bila kita hanya bersandar mentah-mentah pada data kedua belas botol di atas. Kita perlu mengolah data tersebut untuk memperkirakan rata-rata dan standar deviasi volume air yang diisikan oleh mesin tersebut. Kegiatan memperkirakan inilah yang disebut estimasi yang merupakan fungsi minor kedua data mining yang akan dibahas pada bab ini. Pembahasan untuk fungsi estimasi mencakup dua bentuk estimasi yaitu estimasi titik dan selang kepercayaan . Hasil estimasi akan diinterpretasikan untuk memperoleh pengetahuan dari fungsi ini.
Pengenalan Beberapa Istilah dasar

Sebelum melangkah lebih jauh ada baiknya kita mengenal terlebih dahulu istilah populasi dan sampel. Perhatikan kembali contoh di atas kedua belas botol tersebut merupakan sampel yang diambil dari populasi air minum botol. Populasi tersebut besarnya tak terbatas sebab banyaknya botol akan terus bertambah. Sebagai contoh, sejauh ini

Diktat Matakuliah Datamining

- 14 telah diproduksi 100 botol air minum apakah itu berarti ukuran populasinya 100? Tidak! Karena produksi masih terus berjalan (sehingga masih perlu diteliti) maka banyaknya botol akan terus bertambah menjadi 101, 102, dan seterusnya. Oleh karena itu kita mengambil sampel atau cuplikan dari seluruh populasi sebagai wakil populasi tersebut.
A. Estimasi Titik dan Pengetahuan yang Dihasilkan

Estimasi titik merupakan bentuk estimasi yang menghasilkan satu buah nilai estimasi saja yaitu berupa sebuah angka. Lalu apa yang sesungguhnya kita perkirakan? Sesuatu yang tidak kita ketahui nilai sebenarnya yaitu karakteristik sebuah populasi. Rata-rata dan varians merupakan dua besaran yang umum digunakan untuk menyatakan karakteristik sebuah populasi. Karakteristik sebuah populasi biasa disebut parameter populasi. Mengingat ukuran populasi yang terus bertambah mustahil bagi kita untuk menghitung rata-rata dan varians (atau standar deviasi) populasi. Akan tetapi berbekal sampel yang ada kita dapat melakukan estimasi (perkiraan) pada kedua parameter populasi tersebut. Pertanyaannya mengapa kedua parameter tersebut perlu kita perkirakan? Sebab apabila kita memiliki perkiraan rata-rata dan varians yang cukup akurat maka akan ada banyak pertanyaan yang dapat kita jawab dengan memuaskan. Ternyata cara untuk memperkirakan kedua parameter populasi tersebut cukup sederhana seperti berikut. 1. Rata-rata populasi dapat diestimasi dengan rata-rata sampel ( x ). 2. Varian populasi 2 dapat diestimasi dengan varians sampel (s2). Untuk lebih jelasnya, mari kita coba mencari estimasi titik untuk rata-rata dan varians dari data Tabel :3.2 Nomor Botol 1 2 3 4 5 6 7 8 9 10 xi 2016 2025 1968 2007 2031 2055 2039 1981 1975 1964

(xi x )2
81 324 1521 0 576 2304 1024 676 1024 1849

Diktat Matakuliah Datamining

- 15 11 12 Jumlah 2036 1987 24084 841 400 10620

Tabel :3.2: Perincian perhitungan rata-rata dan varians untuk data table 3.1. Estimasi titik untuk rata-rata populasi diperoleh dari rata-rata sampel: Rata-rata sample =

n
i =1

xi

24084 = 2007 ml 12

Estimasi titik untuk varians populasi diperoleh dari varians sampel: Varians sample =

(xi x )2 (n 1) i =1
n

10620 = 965,45 ml2 12 1

Standar deviasi =

(xi x )2 (n 1) i =1
n

= 965,45 = 31,07 ml

Pengetahuan apakah yang diperoleh? Kita dapat menjawab pertanyaan ini "Pada umumnya setiap botol akan diisi air sebanyak 2007 ml (rata-rata), dengan varians sebesar 965,45 ml2."

B. Selang Kepercayaan dan Pengetahuan yang Dihasilkannya.

Pada subbab sebelumnya kita telah mengetahui cara mengestimasi dua parameter populasi yaitu rata-rata dan varians populasi. Hasil estimasinya berupa satu angka saja sehingga disebut estimasi titik . Akan tetapi adakalanya satu titik perkiraan saja kurang memuaskan bagi kita yang menyadari bahwa titik tersebut bagai-manapun juga adalah perkiraan yang mungkin saja meleset. Untuk mengakomodasi ketidaktepatan (error) tersebut dibuatlah bentuk perkiraan lain yang bukan berupa titik yaitu estimasi selang . Adapun batas bawah dan batas atas selang tersebut dapat dihitung dengan cara: Batas bawah (L) = X z a / 2 X Batas atas (U) = X + z a / 2 X .3.1

X merupakan rata-rata sampel (sehingga kita telah mengetahui angkanya), kemudian


ditentu kan oleh kita sendiri lalu kita dapat mencari nilai z di tabel distribusi normal (terlampir) dan terakhir kita juga akan mempelajari cara menghitung X Karena semuanya dapat kita hitung hingga kita memperoleh angkanya tentu tidak ada halangan lagi bagi kita untuk menghitung selang kepercayaan tersebut.

Diktat Matakuliah Datamining

- 16 Pada contoh sampel 12 air minum botol, kita telah memperoleh rata-rata sampel sebesar 2007 ml, artinya X = 2007. Selanjutnya seandainya kita ingin membuat selang kepercayaan 95%, berarti =100% - 95% = 5%. Contoh lain seandainya kita ingin membuat selang kepercayaan 90%, berarti = 100% - 90% = 10%. Untuk kali ini, mari kita coba buat selang kepercayaan 95%, yang berarti = 5%. Lalu, bagaimanakah cara mencari nilai Z? Kita mulai dengan membagi dengan 2, /2 = 5%/2 = 2,5%. Dengan kata lain /2 = 0,025. Pada tabel distribusi normal kita mula-mula perlu mencari letak nilai 0,025 tersebut. Perhatikan gambar berikut.
Normal Deviate z -4,0 -3,9 -,38 -,37 -,36 -3,5 -3,4 -3,3 -3,2 -3,1 -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 -2,0 -1,9 -1,8 -1,7 -1,6 -1,5

,00 ,0000 ,0000 ,0000 ,0001 ,0002 ,0002 ,0003 ,0005 ,0007 ,0010 ,0013 ,0019 ,0026 ,0035 ,0047 ,0062 ,0082 ,0107 ,0139 ,0179 ,0228 ,0287 ,0359 ,0446 ,0548 ,0668

,01 ,0000 ,0000 ,0000 ,0001 ,0002 ,0002 ,0003 ,0005 ,0007 ,0009 ,0013 ,0018 ,0025 ,0034 ,0045 ,0060 ,0080 ,0104 ,0136 ,0174 ,0222 ,0281 ,0351 ,0436 ,0537 ,0655

,02 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0003 ,0005 ,0006 ,0009 ,0013 ,0018 ,0024 ,0033 ,0044 ,0059 ,0078 ,0102 ,0132 ,0170 ,0217 ,0274 ,0344 ,0427 ,0526 ,0643

,03 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0003 ,0004 ,0006 ,0009 ,0012 ,0017 ,0023 ,0032 ,0043 ,0057 ,0075 ,0099 ,0129 ,0166 ,0212 ,0268 ,0336 ,0418 ,0516 ,0630

,04 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0003 ,0004 ,0006 ,0008 ,0012 ,0016 ,0023 ,0031 ,0041 ,0055 ,0073 ,0096 ,0125 ,0162 ,0207 ,0262 ,0329 ,0409 ,0505 ,0618

,05 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0003 ,0004 ,0006 ,0008 ,0011 ,0016 ,0022 ,0030 ,0040 ,0054 ,0071 ,0094 ,0122 ,0158 ,0202 ,0256 ,0322 ,0401 ,0495 ,0606

,06 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0003 ,0004 ,0006 ,0008 ,0011 ,0015 ,0021 ,0029 ,0039 ,0052 ,0069 ,0091 ,0119 ,0154 ,0297 ,0250 ,0314 ,0392 ,0485 ,0594

,07 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0003 ,0004 ,0005 ,0008 ,0011 ,0015 ,0021 ,0028 ,0038 ,0051 ,0068 ,0089 ,0116 ,0150 ,0292 ,0244 ,0307 ,0384 ,0475 ,0582

,08 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0003 ,0004 ,0005 ,0007 ,0010 ,0014 ,0020 ,0027 ,0037 ,0049 ,0066 ,0085 ,0113 ,0146 ,0288 ,0239 ,0301 ,0375 ,0465 ,0571

,09 ,0000 ,0000 ,0000 ,0000 ,0001 ,0002 ,0002 ,0004 ,0005 ,0007 ,0010 ,0014 ,0019 ,0026 ,0036 ,0048 ,0064 ,0084 ,0110 ,0143 ,0283 ,0233 ,0294 ,0367 ,0455 ,0559

Gambar 3..3 . Cara membaca tabel distribusi normal Kemudian, perhatikan bahwa nilai 0,0250 tersebut terletak pada baris -1,9 dan kolom ,06 (dibaca nol koma nol enam). Adapun cara membacanya adalah dengan menggabungkan -1,9 dan 0,06 sehingga diperoleh -1,96. Jadi, z / 2 = ZO,025 = -1,96. Merujuk pada Persamaan 1.3, batas bawah menggunakan nilai z / 2 negatif, yaitu -1,96 sementara batas atas menggunakan nilai z / 2 positif, yaitu 1,96. Terakhir, kita perlu menghitung X Adapun rumus untuk menghi-tungnya adalah :

Diktat Matakuliah Datamining

- 17 -

X =

.1.4

Dari manakah kita dapat memperoleh nilai ? Ingat bahwa pada akhir subbab ini kita sudah memperoleh estimasi titik untuk varians. Ketika varians tersebut ditarik akar kuadrat maka standar deviasinya akan didapatkan. Untuk kasus ini standar deviasi yang diperoleh adalah 31,07 ml. Inilah yang menjadi nilai untuk Persamaan 1.4 Adapun n bernilai 12, yaitu banyaknya botol yang menjadi sampel. Dari uraian tersebut, kita dapat menghitung nilai X

X =

31,07 = = 8,97 n 12

Kembali pada Persamaan 1.3, kedua batas selang kepercayaan tersebut adalah batas bawah (L) = 2007 - 1,96(8,97) = 1989,42 ml batas atas (U) = 2007 + 1,96(8,97) = 2024,58 ml Jadi, selang kepercayaan 95% berdasarkan sampel tersebut adalah (1989,42; 2024,58) ml. Pengetahuan apakah yang diperoleh seandainya kita melakukan sebuah prosedur yaitu mengambil sampel (dalam kasus kita sampelnya 12 botol) kemudian menghitung rata-rata sampel tersebut dan terakhir membuat sebuah selang kepercayaan? Dalam kasus tersebut apabila kita mengulangi prosedur tersebut sebanyak 100 kali maka kita berpeluang untuk mendapatkan 95 buah selang yang benarbenar mencakup rata-rata populasi yang sesungguhnya. Adapun angka 95% yang disebutsebut sejak tadi disebut tingkat keyakinan. Semakin tinggi tingkat keyakinan yang kita inginkan semakin lebar pula selang yang akan dihasilkan. Bayangkan contoh berikut Anda diminta menebak jumlah uang di saku seorang teman sebanyak 10 kali. Cara pertama tebakan Anda selalu memiliki rentang sempit katakanlah Rp100, sehingga Anda menebak Rp10.000 10.100, Rp7.500 7.600, Rp 43.100 Rp 43.200, dan seterusnya hingga 10 kali. Cara kedua tebakan Anda selalu memiliki rentang lebar, katakanlah Rp500.000,- sehingga Anda menebak Rp l.000 501.000, Rp 30.000 530.000, Rp 120.000 620.000, dan seterusnya. Cara manakah yang Anda yakini akan lebih berhasil mencakup jumlah uang sebenanya di saku. teman Anda secara tepat? Tentu cara kedua yang selangnya lebih lebar. Secara ekstrem bila Anda ingin yakin 100% bahwa tebakan Anda pasti benar tebak saja dari negatif tak hingga hingga positif tak hingga yang pada hakikatnya menjadi sama saja dengan "tidak menebak". Oleh karena itu tingkat keyakinan

Diktat Matakuliah Datamining

- 18 yang terlalu tinggi juga tidak diinginkan sebab selang yang dihasilkan menjadi terlalu lebar hingga kehilangan esensi dari perkiraan itu. sendiri. Jadi dalam hal ini ada beberapa hal yang terkait dengan masalah estimasi yaitu 1. kegunaan fungsi estimasi 2. dalam pembahasan bab ini yang diestimasi (diperkirakan) adalah rata-rata dan varians populasi, dan 3. cara estimasi titik dan cara estimasi selang kepercayaan.
SOAL LATIHAN

Sebuah tim peneliti bermaksud memperkirakan besarnya penghasilan penduduk di suatu daerah. Lima belas orang yang telah bekerja atau memiliki usaha diambilsecara acak dan ditanyai penghasilan per bulannya. Hasil yang diperoleh (dalam juta rupiah) adalah 2,47; 1,78; 4,76; 0,67; 4,57; 2,95; 3,17; 2,42; 1,40; 5,61; 3,49; 2,39; 1,74; 2,47; 2,05. 1. Perkirakan rata-rata dan varians penghasilan penduduk daerah tersebut! 2. Buatlah selang keyakinan 90%, 95%, dan 99% untuk rata-rata penghasilan. Bandingkan dari segi lebar intervalnya.

Diktat Matakuliah Datamining

- 19 -

IV. FUNGSI MINOR UNTUK FUNGSI PREDIKSI


Sebagai gambaran Anda akan diberi data mengenai lamanya waktu yang dihabiskan oleh seorang pegawai restoran siap saji untuk mengantarkan pesanan kerumah pelanggan. Pegawai tersebut mengendarai sepeda motor untuk mengantarkan pesanan langsung ke rumah pemesan. Data waktu sejak pegawai meninggalkan restoran hingga ia mencapai pintu rumah pelanggan ditampilkan pada Tabel 4.1. Jarak (km) 0,50 1,10 1,20 5,50 2,95 2,00 3,75 0,52 1,00 3,00 4,12 4,00 5,00 Waktu (menit) 9,95 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 27,50 17,08 37,00 41,95 Tabel 4.1. Data waktu pengantaran pesanan Jarak (km) 3,60 2,05 4,00 6,00 5,85 5,40 2,50 2,90 5,10 5,90 1,00 4,00 Woktu (menit) 11,66 21,65 17,89 69,00 10,30 34,93 46,59 44,88 54,12 56,23 22,13 21,15

No. Pesonon 1 2 3 4 5 6 7 8 9 10 11 12 13

No. Pesonan 14 15 16 17 18 19 20 21 22 23 24 25

Berdasarkan data dalam table seandainya datang pesanan ke-26 dari rumah yang jaraknya 1,5 km dari restoran seharusnya kita dapat memberikan prediksi waktu pengantaran pesanan bagi pelanggan tersebut. Prediksi tersebut didasari anggapan kita bahwa waktu pengantaran pesanan dipengaruhi oleh jarak rumah pelanggan. Apakah anggapan tersebut benar? Hal tersebut akan kita buktikan nanti. Contoh tersebut menggambarkan sebuah kegiatan prediksi. Lalu apa perbedaannya dengan estimasi? Ingat kembali bahwa dalam estimasi kita memperkirakan suatu hal,

Diktat Matakuliah Datamining

- 20 misalnya rata-rata populasi dari sejumlah sampel yang kita miliki. Estimasi dilakukan berdasarkan samp el yang ada di tangan kita. Sementara itu dalam prediksi kita menggunakan data yang ada di tangan kita untuk memprediksi hasil dari satu hal baru yang a k a n mu n c u l s e l a n j u t n y a mi s a l n y a mu n c u l n y a p e s a n a n selanjutnya. Jadi estimasi dilakukan untuk memperkirakan hal yang tidak kita ketahui (rata-rata populasi, varians populasi) sedangkan prediksi memperkirakan hasil dari hal yang belum terjadi. Kita dapat menunggu hingga hal tersebut terjadi untuk membuktikan seberapa tepat prediksi kita. Berikutnya akan membahas cara prediksi yang disebut regresi linear kemudian dilanjutkan dengan cara menganalisis prediksi yang dihasilkan. Apabila terdapat istilah khusus maka istilah tersebut akan sekaligus dijelaskan di dalamnya.
Regresi Linear dan Pengetahuan Yang Dihasilkan

Dua jenis regresi linear yang akan dibahas pads subbab ini adalah regresi linear sederhana dan regresi linear berganda. Secara sederhana, dapat dikatakan bahwa regresi linear sederhana hanya melibatkan satu variabel pemberi pengaruh, sementara regresi linear berganda melibatkan lebih dari satu variabel pemberi pengaruh. Variabel adalah besaran yang berubah-ubah nilainya. Dalam kasus di atas, sesungguh- nya terdapat banyak sekali variabel yang terlibat, misalnya nomor rumah pelanggan, luas rumah pelanggan, jam pemesanan, suhu udara saat pemesanan, banyaknya anggota keluarga pelanggan, dan sebagainya. Akan tetapi semua variabel tersebut belum tentu relevan dengan kasus yang dihadapi. Variabel yang (dianggap) relevan dan dicantumkan pada Tabel 4.1. adalah jarak rumah pelanggan dan waktu tempuh pengiriman pesanan. selanjutnya kedua variabel tersebut dapat dipilah menjadi dua jenis yaitu variabel pemberi pengaruh dan variabel
terpengaruh. Variabel pemberi pengaruh dapat dianalogikan sebagai sebab , sementara

variabel terpengaruh merupakan akibat. Di antara jarak rumah pelanggan dan waktu tempuh, bagaimanakah hubungan sebab-akibatnya? Pemikiran yang logic adalah jauh-dekatnya jarak rumah pelanggan mengakibatkan panjang-pendeknya waktu tempuh pengiriman. Oleh karena itu jarak merupakan variabel pemberi pengaruh sementara waktu tempuh adalah variabel terpengaruh.
A. Regresi Linear Sederhana

Regresi linear merupakan satu cara prediksi yang menggunakan garis lurus

Diktat Matakuliah Datamining

- 21 untuk menggambarkan hubungan di antara dua variabel (atau lebih). Dalam kasus di atas kedua variabel tersebut adalah jarak dan waktu tempuh. Kita akan mencoba menggambarkan data pada Tabel 4.1. dengan jarak sebagai sumbu X (dalam kilometer) dan Waktu Tempuh sebagai sumbu Y (dalam menit). Setiap pasang data jarak-waktu pada Tabel 4.1. digambarkan sebagai sebuah titik pada Gambar 4.1. Oleh karena itu memuat 25 buah titik.

Gambar 4.1. :

Data Tabel 4.1. dengan Jarak sebagai sumbu X dan Waktu sebagai sumbu Y

Tujuan kita adalah mencari sebuah garis lurus yang sedekat mungkin dengan semua titik sehingga garis tersebut menjadi sesuai untuk mewakili titik-titik tersebut. Secara umum, garis tersebut dapat kita tulis dalam bentuk persamaan: Y = 0 + 1x Y adalah variabel terpengaruh, 0 adalah sebuah konstanta, 1 adalah gradien garis, dan x adalah variabel pemberi pengaruh.

Gambar 4.2. Contoh tiga garis lurus untuk mendekati titik-titik data table 4.1.

Diktat Matakuliah Datamining

- 22 Gambar 4.2. tersebut menggambarkan tiga buah garis lurus. Manakah yang tampaknya paling dapat mewakili semua titik? Di antara ketiganya tampaknya garis B merupakan garis yang lebih baik dalam mendekati titik-titik yang ada. Garis A terlalu jauh dari semua titik sementara garis C justru tidak menggambarkan kecenderungan naiknya nilai sumbu Y (Waktu) seiring dengan bertambahnya nilai sumbu X (Jarak). Pertanyaannya bagaimanakah cara mencari garis regresi linear yang paling baik? Ingat bahwa untuk menggambarkan sebuah persamaan garis kita memerlukan konstanta dan gradiennya. Jadi untuk menemukan garis regresi linear yang paling baik kita perlu menghitung konstanta 0 dan gradien 1 dengan rumus: 0 = y 1 x

1 =

n n yi xi n yi xi i =1 n i =1 i =1 n xi n 2 xi i =1n i =1
2

.4.1

D a l a m c o n t o h k a s u s d i a t as, Wa ktu me njadi variabel Y (terpengaruh) dan Jarak menjadi variabel X (pemberi pengaruh) sebab kita beranggapan bahwa waktu dipengaruhi oleh jarak. Tabel 4.1. memberikan perincian perhitungan yang akan kita m a s u k - k a n k e d a l a m P e r s a m a a n 4.1. u n t u k m e m p e r o l e h persamaan garis regresi. Tabel 4.2. Perincian perhitungan untuk regresi linear sederhana
No i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Jarak x 0,50 1,10 1,20 5,50 2,95 2,00 3,75 0,52 1,00 3,00 4,12 4,00 5,00 3,60 2,05 Waktu y 9,95 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 27,50 17,08 37,00 41,95 11,66 21,65 yi xi 4,98 26,90 38,10 192,50 73,81 33,72 53,93 4,99 24,35 82,50 70,37 148,00 209,75 41,98 44,38 x i2 0,25 1,21 1,44 30,25 8,70 4,00 14,06 0,27 1,00 9,00 16,97 16,00 25,00 12,96 4,20

Diktat Matakuliah Datamining

- 23 -

No i 16 17 18 19 20 21 22 23 24 25 Jumlah Rata-rata

Jarak x 4,00 6,00 5,85 5,40 2,50 2,90 5,10 5,90 1,00 4,00 82,94 3,32

Waktu y 17,89 69,00 10,30 34,93 46,59 44,88 54,12 56,23 22,13 21,15 725,42 29,02

yi xi 71,56 414,00 60,26 188,62 116,48 130,15 276,01 331,76 22,13 84,60 2745,81

x i2 16,00 36,00 34,22 29,16 6,25 8,41 26,01 34,81 1,00 16,00 353,18

Dengan menggunakan hasil perhitungan pada tabel, kita dapat m e n g h i t u n g g r a d i e n 1 d a n k o n s t a n t a 0 m e n g g u n a k a n Persamaan 4.1 : 2745,81 (752,42)(82,94) 25 (82,94) 2 353,18 25

1 =

.4.2

1 = 29,02 4,35(3,32) = 14,58 Persamaan garis regresi yang kita cari berbentuk Y = 0 + 1x. Berdasarkan hasil di atas maka diperoleh persamaan Y = 14,58 + 4,35X. Pengetahuan apakah yang diperoleh? Kita memprediksi bahwa waktu tempuh pengiriman pesanan sama dengan 14,58 menit ditambah 4,35 kali jarak rumah pelanggan. Lebih jauh lagi persamaan garis ini menyatakan bahwa bila rumah pelanggan berjarak 0 km dari restoran waktu antarnya diprediksi 14,58 menit. Bila jaraknya bertambah 1 km maka waktu tersebut pun akan bertambah 4,35 menit menjadi 18,93 menit.Setiap pertambahan jarak rumah pelanggan sejauh 1 km waktu pengiriman pun diprediksi akan bertambah selama 4,35 menit. Setelah memperoleh garis regresi di atas ketika kita mendapatkan pelanggan ke-26 yang berjarak 1,5 km dari restoran kita dapat memprediksi bahwa pesanan akan sampai ke tangan pelanggan dengan cara: Y = 14,58 + 4,35X Y = 14,58 + 4,35(1,5) = 21,1 Pesanan diperkirakan akan sampai ke tangan pelanggan dalam waktu 21,1 menit.
Diktat Matakuliah Datamining

- 24 -

B. Regresi Linear Berganda (Multiple Linear Regression)

Apakah regresi linear hanya dapat melibatkan satu variabel pemberi pengaruh? Tidak!. Kita dapat menyusun persamaan regresi yang memiliki banyak variabel X yaitu variabel pemberi pengaruh. Apabila kita memiliki k buah variabel pemberi pengaruh maka bentuk persamaan garis regresinya menjadi: Y = 0 + 1x 1 + 2x 2 + 3x 3 + . + kx k Y adalah variabel terpengaruh, 0 adalah sebuah konstanta, 1 adalah gradien pertama, x1 adalah variabel pemberi pengaruh yang pertama, 2 adalah gradien kedua, dan x 2 adalah variabel pemberi pengaruh yang kedua. Persamaan-persamaan yang ditunjukkan pada Persamaan 4.2 dapat kita gunakan untuk menemukan persamaan garis regresi Y = 0 + 1x 1 + 2x 2 + 3x 3 + . + kx k . Perhatikan bahwa kita memiliki (k + 1) buah persamaan, sementara variabel yang tidak kita ketahui juga ada sebanyak (k + 1) buah yaitu dari 0 hinggapk. O l e h k a r e n a i t u k i t a d a p a t m e n y e l e s a i k a n p e r s a m a a n persamaan pada Persamaan 4.2 untuk menemukan 0 hingga k. Persamaan 4.3.
n 0 + 1 xi1 + 2 xi 2 + 3
i =1 i =1
n n n

3 i =1

xi3....... + k xik = yi
i =1 i =1
3 i =1

0 xi1 + 1 xi21 + 2 xi1 xi 2 + 3


i =1 i =1 i =1

xi1 xi3 ....... + k xi1 xik = xi1 yi


i =1 i =1

dst

0 xik + 1 xik xi1 + 2 xik xi 2 + 3


i =1 i =1 i =1

3 i =1

xik xi3 ....... + k xik xik = xik yi


i =1 i =1

Mari kita kembali pada contoh di awal. Berdasarkan masukan p e g a w a i p e n g a n t a r m a k a n a n l a m a n y a w a k t u u n t u k mengirimkan pesanan ternyata tidak hanya bergantung pada jarak. Banyaknya lampu merah di perempatan jalan juga dapat mengham bat perjalanan tabel 4.3.berisi data yang sama dengan table 4.1 namun telah dilengkapi dengan data mengenai banyaknya lampu merah yang ditemui di sepanjang perjalanan. No 1 2 Lampu 2 8 Jarak 0,50 1,10 Waktu 9,95 24,45 No 14 15 Lampu 2 4 Jarak 3,60 2,05 Waktu 11,66 21,65

Diktat Matakuliah Datamining

- 25 3 4 5 6 7 8 9 10 11 12 13 11 10 8 4 2 2 9 8 4 11 12 1,20 5,50 2,95 2,00 3,75 0,52 1,00 3,00 4,12 4,00 5,00 31,75 35,00 25,02 16,86 14,38 9,60 24,35 27,50 17,08 37,00 41,95 16 17 18 19 20 21 22 23 24 25 Jumla 4 20 1 10 15 15 16 17 6 5 206 4,00 6,00 5,85 5,40 2,50 2,90 5,10 5,90 1,00 4,00 82,94 17,89 69,00 10,30 34,93 46,59 44,88 54,12 56,23 22,13 21,15 725,42

Tabel 4.3. Data waktu pengantaran pesanan yang mengikutsertakan faktor lampu merah K i t a d a p a t m e n g h i t u n g g r a d i e n 1 , 2 , d a n k o n s t a n t a 0 menggunakan Persamaan 4.4.
n n n

n 0 + 1 xi1 + 2 xi 2 = y i
i =1 i =1 i =1

4.4.
n

0 xi1 + 1 xi21 + 2 xi1 xi 2 = xi1 y i


i =1 n i =1 n i =1 i =1 n

0 xi 2 + 1 xi1 xi 2 + 2 xi22 = xi 2 y i
i =1 i =1 i =1 i =1

A d a p u n p e r i n c i a n p e r h i t u n g a n k o m p o n e n - k o m p o n e n y a n g d i b ut u h ka n u n t u k me l e n g k a p i p e r s a ma a n - p e r s a ma a n d i a t a s d1tampilkan pada Tabel 4.4. Tabel 4.4. Perincian perhitungan untuk regresi linear berganda
No i 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Lampu x1 2 8 11 10 8 4 2 2 9 8 4 11 12 Jarak x2 0,50 1,10 1,20 5,50 2,95 2,00 3,75 0,52 1,00 3,00 4,12 4,00 5,00 Waktu y 9,95 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 27,50 17,08 37,00 41,95 xil 2 4,00 64,00 121,00 100,00 64,00 16,00 4,00 4,00 81,00 64,00 16,00 121,00 144,00 x i1 x i2 1,00 8,80 13,20 55,00 23,60 8,00 7,50 1,04 9,00 24,00 16,48 44,00 60,00 x i1 y i 19,90 195,60 349,25 350,00 200,16 67,44 28,76 19,20 219,15 220,00 68,32 407,00 503,40 x i2 2 0,25 1,21 1,44 30,25 8,70 4,00 14,06 0,27 1,00 9,00 16,97 16,00 25,00 x i21 y i 4,98 26,90 38,10 192,50 73,81 33,72 53,93 4,99 24,35 82,50 70,37 148,00 209,75

Diktat Matakuliah Datamining

- 26 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. Jumlah 2 4 4 20 1 10 15 15 16 17 6 5 206 3,60 2,05 4,00 6,00 5,85 5,40 2,50 2,90 5,10 5,90 1,00 4,00
82,94

11,66 21,65 17,89 69,00 10,30 34,93 46,59 44,88 54,12 56,23 22,13 21,15
725,42

4,00 16,00 16,00 400,00 1,00 100,00 225,00 225,00 256,00 289,00 36,00 25,00
2396,00

7,20 8,20 16,00 120,00 5,85 54,00 37,50 43,50 81,60 100,30 6,00 20,00
771,77

23,32 86,60 71,56 1380,00 10,30 349,30 698,85 673,20 865,92 955,91 132,78 105,75
8001,67

12,96 4,20 16,00 36,00 34,22 29,16 6,25 8,41 26,01 34,81 1,00 16,00
353,18

41,98 44,38 71,56 414,00 60,26 188,62 116,48 130,15 276,01 331,76 22,13 84,60
2745,81

Bila kita isikan angka yang kita peroleh dari Tabel 4.4. pada Persamaan 4.4. maka 250 +1(206) + 2 (82,94) = 725,42 0(206) + 1(2396) + 2(771, 77) = 8001,67
0(82,94) + 1(771,77) + 2 (353,18) = 2745,81

Ketiga persamaan tersebut diselesaikan hingga memperoleh o = 2,31, 1 = 2,74, dan 2 = 1,24. Lengkapnya persamaan regresi yang kita peroleh adalah Y = 2,31 + 2,74 X1 + 1,24 X2 Pengetahuan apakah yang diperoleh? Kita memprediksi bahwa waktu tempuh pengiriman pesanan sama dengan 2,31 menit ditambah 2,74 kali banyaknya lampu merah yang dite-mui di sepanjang perjalanan dan ditambah 1,24 kali jarak rumah pelanggan. Lebih lanjut persamaan garis ini menyatakan bahwa bila rumah pelanggan berjarak 0 km dari restoran dan dapat dicapai tanpa melewati lampu merah, maka waktu antarnya dipre-diksi 2,31 menit. Setiap pertambahan satu buah lampu merah yang ditemui di perjalanan waktu antarnya diprediksi bertambah 2,74 menit. Sementara pertambahan jarak rumah pelang-gan sejauh 1 km diprediksi menambah waktu antar selama 1,24 menit. Berdasarkan garis regresi di atas kita akan memprediksi waktu antar untuk pelanggan ke26 yang berjarak 1,5 km dari restoran. Akan tetapi kali ini kita juga perlu mengetahui berapa banyak lampu merah yang akan ditemui pengantar sepanjang jalan dari restoran hingga ke rumah pelanggan.Dalam kasus ini pengantar hanya akan menemukan sebuah lampu merah. Sekarang kita tabu bahwa X1 = 1 (lampu) dan X2 = 1,5 (jarak) sehingga kita dapat mempre-diksi lamanya waktu hingga pesanan sampai ke tangan pelanggan dengan cara: Y = 2,31 + 2,74 X1 + 1,24 X2

Diktat Matakuliah Datamining

- 27 Y = 2,31 + 2,74(1) + 1,24(1,5) = 6,91 Pesanan diperkirakan sampai ke tangan pelanggan dalam waktu 6,9 menit.
C. Analisa Garis Regresi Menggunakan Koefisien Determinasi

Pada subbab sebelumnya kita telah membuat dua garis regresi untuk memprediksi waktu pengiriman pesanan (Y). Garis regresi pertama yang kita peroleh hanya dengan menyertakan variabel jarak (X) sebagai pemberi pengaruh adalah : Y = 14,58 + 4,35X (Y = 14,58 + 4,35 Jarak) Garis regresi kedua yang kita peroleh dengan menyertakan dua variabel pemberi pengaruh, Lampu Merah (X1) dan Jarak (X2), adalah Y = 2,31 + 2,74Xi + 1,24X2 (Y = 2,31 + 2,74 Lampu + 1,24 Jarak) Manakah yang lebih baik? Apabila kriteria yang kita gunakan adalah kemampuan garis regresi untuk mewakili data historis (dalam kasus kita adalah data pada Tabel 4.4.), maka kita dapat menggunakan ukuran koefisien determinasi yang dinotasikan sebagai R2. Koefisien determinasi merupakan besaran yang mengukur seberapa baik kemam-puan garis regresi untuk menjelaskan keragaman data. Koefisien determinasi dapat dihitung dengan rumus: R2 = 1 n

SS E S yy
n

4.5 4.6 4.7

SS E = S yy =

ei2 = ( yi yi ) 2
i =1 i =1

(y
i =1

y) 2

Pada persamaan SS E di Persamaan 4.7, notasi y i mewakili nilai y dari data yang sebenar-nya, sementara notasi y i menyatakan nilai y yang kita peroleh melalui garis regresi. Agar lebih jelas, mari kita kembali ke Tabel 4.5 dan mengambil data ke-7 dan data ke-19 sebagai contoh.Data ke-7 memiliki Waktu (y) sebesar 14,38. Data inilah yang dino- tasikan sebagai y 7 . Dari tabel kita juga dapat menemukan y19 = 34,93. Lalu bagaimanakah caranya menemukan nilai y i ? Bila kita menggunakan garis regresi pertama Y = 14,58 + 4,35X, dengan Y adalah Waktu dan X adalah Jarak, maka:

Diktat Matakuliah Datamining

- 28 Y = 14,58-4,35(3,75) = 30,89 y19 =14,58 + 4,35 (5,4) = 38,07 Bila kita menggunakan garis regresi kedua Y = 2,31 + 2,74X1 + 1,X 2 , dengan Y adalah waktu, X 1 adalah Lampu, dan X 2 adalah jarak, maka : y 7 = 2,31 + 2,74(2) + 1,24(3,75) = 12,44 y 19 = 2,31 + 2,74(10) + 1,24(5,4) = 36,41 Tabel 4.5 mencantumkan perincian perhitungan yang dilakukan untuk menemukan koefisien determinasi. Keempat kolom, (1), (2), (3), dan (4), diperoleh dari Tabel 4.3 dengan urutan yang tepat sama, yaitu Nomor, Lampu, Jarak, dan Waktu. Kolom (5) diperoleh dengan cara memasukkan nilai kolom (3), yaitu Jarak, ke dalam persamaan regresi yang pertama: Y = 14,58 + 4,35X. Kolom (6) merupakan hasil pengurangan kolom (4) dengan kolom (5), lalu dikuadratkan. Kolom (7) diperoleh dengan cara memasukkan nilai kolom (2) dan kolom (3), yaitu Lampu dan Jarak, ke dalam persama-an regresi yang kedua: Y = 2,31 + 2,74X1 + 1,24X2. Kolom (8) merupakan hasil pengurangan kolom (4) dengan kolom (7), lalu dikuadratkan. Kolom (9) merupakan hasil pengurangan kolom (4) dengan rata-rata kolom (4), lalu dikuadratkan. Tabel 4.5. Perincian perhitungan koefisien determinasi
(1) i 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. (2) x1 2 8 11 10 8 4 2 2 9 8 4 11 12 2 4 4 (3) x2 0,50 1,10 1,20 5,50 2,95 2,00 3,75 0,52 1,00 3,00 4,12 4, 00 5, 00 3,60 2,05 4,00 (4) y 9,95 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 27,50 17,08 37,00 41,95 11,66 21,65 17,89 (5) (6) (7) Y 8,41 25,59 33,94 36,53 27,89 15,75 12,44 8,43 28,21 27,95 18,38 37,41 41,39 12,25 15,81 18,23 (8) (yi-Y)2 2,37 1,31 4,79 2,34 8,23 1,23 3,76 1,36 14,90 0,20 1,69 0,17 0,31 0,35 34,08 0,12 (9)

yi
16,76 19,37 19,80 38,51 27,41 23,28 30,89 16,84 18,93 27,63 32,50 31,98 36,33 30,24 23,50 31,98

(yi yi )

( yi yi )2
363,54 20,86 7,41 35,80 15,91 147,19 214,21 377,01 21,78 2,30 142,41 63,71 167,11 301,26 54,21 123,81

46,31 25,86 142,80 12,29 5,72 41,22 272,66 52,45 29,38 0,02 237,84 25,20 31,58. 345,22 3,41 198,53

Diktat Matakuliah Datamining

- 29 17. 18. 19. 20. 21. 22. 23. 24. 25. Jumlah Rata-rata 20 1 10 15 15 16 17 6 5 206 6,00 5,85 5,40 2,50 2,90 5,10 5,90 1,00 4,00 82,94 29,02 69,00 10,30 34,93 46,59 44,88 54,12 56,23 22,13 21,15 725,42 40,68 40,03 38,07 25,46 27,20 36,77 40,25 18,93 31,98 725,29 802,02 883,72 9,86 446,69 312,76 301,20 255,52 10,24 117,29 4609,79 64,55 12,30 36,41 46,51 47,01 52,47 56,21 19,80 4,02 2,18 0,01 4,52 2,711. 0,00 1598,64 350,31 34,9' 308,8f 251,64 630,17 740,54

47,43 19,99 4,58 20,97 0,03 61,89 725,04 115,05 6084,02

Perhitungan koefisien determinasi untuk kedua garis menggunakan persamaan diatas : 1. Garis regresi pertama (Y = 14,58 + 4,35X) SSE = 4609,79 (jumlah kolom [6] ) Syy = 6084,02 (jumlah kolom [9] ) R2 = 1 [4609,78/6084,02] = 0,2423 = 24,23 % 2. Garis regresi kedua (Y = 2,31 + 2,74X1 + 1,24X2) SSE = 115,05 (jumlah kolom [8] ) Syy = 6084,02 (jumlah kolom [9] ) R2 = 1 [115,05 /6084,02] = 0,9811 = 98,11% Garis regresi kedua ternyata memiliki koefisien determinasi yang jauh lebih tinggi, artinya garis tersebut lebih dapat menjelaskan keragaman waktu pengantaran pesanan pada Tabel 4,2. Jadi dalam memprediksi waktu pengantaran pesanan selanjutnya kita sebaiknya menggunakan garis regresi kedua yang mempertimbangkan dua variable pemberi pengaruh yaitu banyaknya lampu merah dan jrak rumah pelanggak. Jadi kita telah menguraikan beberapa hal yang terkait dengan masalah prediksi yaitu : 1. Kegunaan fungsi prediksi 2. Cara membuat persamaan garis regresi untuk satu atau lebih variable pemberi pengaruh 3. Cara melakukan analisis perbandingan antara dua garis regresi berdasarkan koefisien determinasi.

SOAL LATIHAN

Dua puluh orang peserta kursus bahasa Inggris akan mengikuti ujian. Diperkirakan nilai ujian tersebut dipengaruhi oleh la manya waktu kursus (dalam bulan),

Diktat Matakuliah Datamining

- 30 nilai try out , dan banyaknya bahasa asing selain bahasa Inggris yang dikuasai. 1. Buatlah persamaan garis regresi yang melibatkan tiga variabel pemberi penga-ruh, yaitu lama Kursus, Try Out, dan Bahasa Lain.

2. Hitung koefisien determinasi garis tersebut. Apa arti dari angka koefisien determinasi yang diperoleh? Data tersebut ditampilkan pada tabel berikut : .
No. Lama Kursus 1 9,9 2 10,2 3 11,5 4 12,9 5 14,6 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 13,6 8,7 12,3 15,5 14 11,9 11,5 9,8 10,1 11,1 12 12,6 13,2 14,3 9,5 Try Out 77 75 88 90 91 85 68 78 91 88 84 81 75 76 74 73 80 90 86 70 Bahasa Lain 1 1 0 1 1 2 1 2 1 1 2 1 0 0 0 0 2 1 1 0 Nilai Uji 85 80 87 91 95 93 78 88 100 91 92 89 85 83 82 83 89 88 93 76

Diktat Matakuliah Datamining

- 31 -

V. FUNGSI MAYOR UNTUK FUNGSI KLASIFIKASI


Sebagai gambaran Anda diberi data mengenai 8 orang nasabah yang pernah memperoleh kredit dari Bank Bhatara Putra. Data tersebut meliputi besarnya tabungan (yang berjenis kategorial: rendah, sedang atau tinggi), besarnya aset (yang berje-nis kategorial: rendah, sedang, atau tinggi), besarnya pendapatan per tahun (dalam ribuan dolar yang berjenis numerik dan berskala rasio) dan risiko kredit (yang berjenis kategorial: risiko baik atau buruk). Data selengkapnya disajikan dalam Tabel 5.1. Tabel 5.1. Data tabungan, aset, pendapatan, dan risiko kredit nasabah Bank Bhatara Putra
Nasabah A B C D E F G H Tabungan Sedang Rendah Tinggi Sedang Rendah Tinggi Rendah Sedang Aset Tinggi Rendah Sedang Sedang Sedang Tinggi Rendah Sedang Pendoputan 75 50 25 50 100 25 15 75 Risiko Kredit Baik Buruk Buruk Baik Baik Baik Buruk Baik

Data pada Tabel 5.1. berasal dari masa lampau sehingga data tersebut menjadi data historis atau data sejarah. Orang bijak selalu belajar dari pengalaman masa lampau, artinya belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis seperti yang tertera pada Tabel 5.1.? Kita akan mencoba menyimak, merenungkan, dan mempelajari data pada tabel tersebut agar kelak sekiranya ada nasabah kesembilan, kesepuluh, kesebelas, dan seterusnya, kita dapat mengklasifikasikan (menggolongkan) risiko kredit para nasabah tersebut apabila diketahui tabungan, aset, dan pendapatan mereka. Bab ini akan membahas fungsi mayor pertama dari data mining yaitu klasifikasi. Pembahasan akan mencakup: 1. Pengenalan beberapa istilah dasar Bagian ini akan memudahkan kita mengikuti pembahasan berikutnya tentang masalah klasifikasi. 2. Prototipe masalah klasifikasi dan pengetahuan yang dihasilkannya Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam mendapatkan gambaran tentang apa yang sebenarnya menjadi input serta pengeta-

Diktat Matakuliah Datamining

- 32 huan apa yang menjadi output fungsi mayor klasifikasi. Selanjutnya interpretasi pengetahuan yang menjadi produk dari fungsi mayor klasifikasi akan diberikan. 3. Algoritme klasifikasi Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu algoritme yang digunakan data mining dalam menjalankan fungsi mayor pertamanya, yaitu algoritme CART (Classification and Regression Trees).
4. Pengembangan selanjutnya

Bagian ini berisi informasi yang dapat digunakan oleh para pembaca yang tertarik untuk mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor klasifikasi.

5.1. Pengenalan Beberapa Istilah Dasar Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut

demikian? Data historis disebut data latihan (training data) karena kita akan berlatih dengan data tersebut untuk mendapatkan pengetahuan. Dan disebut data pengalaman karena data tersebut berasal dari masa lampau, bukankah masa lampau adalah pengalaman bagi kita? Algoritme klasifikasi akan menggunakan data latihan untuk sesuai pengertian data mining menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam klasifikasi? Tentu saja pengetahuan untuk menggolongkan risiko kredit seorang nasabah pada masa mendatang berdasarkan tabungan, asset dan pendapatan mereka. Data tabungan, aset, dan pendapatan yang akan dijadikan dasar untuk menentukan risiko kredit disebut variabel prediktor/pemrediksi (predictor variable ). Adapun risiko kredit yang akan ditentukan berdasarkan variabel prediktor disebut variabel tujuan (target
variable).

Jadi secara ringkas pada klasifikasi sebuah catatan (record) akan diklasifikasikan ke dalam salah satu dari sekian klasifikasi yang tersedia pada variabel tujuan berdasarkan nilai-nilai variabel prediktornya. Masalah klasifikasi secara ringkas dapat digambarkan sebagai berikut. 1. Masalah klasifikasi berangkat dari data latihan yang tersedia, misalnya data Tabel 5.1 2. Data latihan akan diolah dengan menggunakan algoritme klasifikasi. 3. Masalah klasifikasi berakhir dengan dihasilkannya sebuah pengetahuan yang direpresentasikan dalam bentuk diagram, yang biasa disebut pohon keputusan (decision tree).

Diktat Matakuliah Datamining

- 33 5.2. Prototif Masalah Klasifikasi dan Pengetahuan yang dihasilkan.

Gambar 5.1. adalah contoh pohon keputusan, sebagai jawaban bagi masalah klasifikasi dengan data latihan seperti yang tertera pada Tabel 5.1, yang dalam hal ini variabel predicttornya adalah aset, tabungan, dan pendapatan, sedangkan variabel tujuannya adalah risiko kredit. Pohon keputusan pada Gambar 5.1. itulah yang menjadi pengetahuan yang dihasil-kan dari fungsi klasifikasi. Sebelum kita mempelajari cara membaca gambar ini, pengertian lambang-lambang yang digunakan pada gambar tersebut akan diperkenalkan terlebih dahulu. Pada gambar tersebut terdapat dua jenis bentuk noktah. Pertama noktah yang berbentuk elips yang disebut juga noktah keputusan . Noktah jenis ini adalah noktah yang masih akan bercabang karena pada noktah ini suatu c a t a t a n ( m i s a l n y a , n a s a b a h ) b e l u m d a p a t d i t e n t u k a n klasifikasinya (apakah nasabah ini mempunyai risiko kredit baik atau buruk). Noktah keputusan yang pertama biasa disebut noktah dasar. Kedua, noktah yang berbentuk persegi panjang, yang disebut juga noktah terminasi adalah noktah yang tidak akan bercabang lagi karena pada noktah ini suatu catatan (misalnya, nasabah) sudah dapat ditentukan klasifikasinya. Bagaimana cara membaca gambar pohon keputusan yang dihasilkan oleh suatu algorit-me klasifikasi? Pertama-tama, pada noktah dasar semua catatan nasabah (A, B, C, D, E, F, G, H) sama sekali belum mendapat klasifikasi. Terhadap seluruh catatan ini pertamatama tanyakan seberapa besar asetnya. Bila aset sebuah catatan termasuk rendah, catatan ini langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang buruk dan noktah bagi catatan yang termasuk dalam klasifikasi ini berjenis noktah terminasi. Sesuai dengan namanya, noktah ini tak akan pernah bercabang lagi. Catatan yang dicakup oleh noktah terminasi ini adalah catatan B dan G. Namun bila aset sebuah catatan termasuk sedang atau tinggi risiko kredit catatan tersebut belum bisa diklasifikasikan (apakah baik atau buruk) sehingga noktahnya termasuk dalam jenis noktah keputusan. Noktah ini akan disebut
noktah keputusan A karena menjadi noktah keputusan pertama yang dihasilkan.

Catatan yang tercakup dalam noktah ini adalah catatan A, C, D, E, F, dan H. Selanjutnya terhadap noktah keputusan A dilakukan percabangan dengan menanya kan besarnya tabungan.

Diktat Matakuliah Datamining

- 34 -

Noktah Dasar Aset = rendah VS Aset = Sedang, tinggi

Noktah Terminasi Resiko Buruk (Catatan B, G)

Noktah Keputusan A (Catatan A, C, D, E, F,

Tabungan = tinggi

Tabungan = Rendah, Sedang

Noktah Keputusan B Resiko Baik (Catatan C, F)

Noktah Termanasi Resiko Baik (Catatan A, D, E, H)

Aset = Tinggi

Aset = Sedang

Noktah Terminasi Resiko Baik (Catatan F)

Noktah Terminasi Resiko Buruk (Catatan C)

Gambar 5.1. Pohon keputusan bagi masalah klasifikasi data nasabah Bank Bhatara Putra

Diktat Matakuliah Datamining

- 35 Bila tabungan sebuah catatan termasuk rendah atau sedang catatan tersebut langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang baik sehingga termasuk dalam jenis noktah terminasi. Catatan yang dicakup oleh noktah terminasi adalah catatan A, D, E, dan H. Bila tabungan sebuah catatan termasuk tinggi risiko kredit catatan ini belum bisa diklasifikasikan (apakah baik atau buruk) sehingga noktahnya termasuk dalam jenis
noktah keputusan. Noktah ini akan disebut noktah keputusan B karena menjadi

noktah keputusan kedua yang dihasilkan. Catatan yang tercakup dalam noktah ini adalah catatan C dan F. Selanjutnya terhadap noktah keputusan B dilakukan percabangan dengan kembali menanyakan besarnya aset. Bila aset sebuah catatan termasuk tinggi, catatan tersebut (nasabah F) langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang baik sehingga noktahnya termasuk dalam jenis noktah terminasi yang tidak akan pernah bercabang lagi. Namun bila aset sebuah catatan termasuk sedang catatan tersebut (nasabah C) langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang buruk sehingga noktahnya termasuk dalam jenis noktah terminasi yang tidak akan pernah bercabang lagi.

5.3. Algoritme Klasifikasi Cart (Classification and Regresion Trees)

Pembahasan sebelumnya dapat kita ringkas dalam tiga penjelasan berikut:


1. Pertama kita memiliki data dari 8 nasabah seperti yang tertera pads Tabel 5.1 dan

ingin memperoleh pengetahuan yang dapat diaplikasikan kepada mereka yang berpotensi menjadi nasabah kesembilan, kesepuluh, kesebelas, dan selanjutnya sehingga dengan mengetahui aset tabungan dan pendapatan kita dapat menentukan risiko kredit mereka.
2. Kedua data itu kelak akan kita jadikan input bagi suatu algoritme yang saat ini belum

diketahui jenis algoritmenya.


3. Ketiga sebagai keluaran dari algoritme yang saat ini belum diketahui jenisnya kita akan

memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk pohon keputusan. Subbab ini akan membahas detail salah satu algoritme yang dapat menghasilkan pohon keputusan. Algoritme ini disebut Classification and Regression Trees atau CART. Ciri khas algoritme CART ini adalah noktah keputusan yang selalu bercabang dua atau bercabang biner. Algoritme CART ini pertama kali digagas oleh Leo Breiman, Jerome Friedman, Richard Olshen, dan Charles Stone (Larose, 2005). Algoritme ini juga masuk dalam The Top Ten
Algorithms in Data Mining (Wu dan Kumar, 2009). Agar lebih jelas kita terapkan

algoritme CART terhadap data pads Tabel 5.1


Diktat Matakuliah Datamining

- 36 Langkah-langkah pada algoritme CART adalah sebagai berikut. 1. Langkah pertama susunlah calon cabang (candidate split). Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap
(exhaustive). Daftar yang berisi calon cabang disebut daftar calon cabang mutakhir.
2. Langkah kedua adalah menilai kinerja keseluruhan calon cabang yang ada pada

daftar calon cabang mutakhir dengan jalan menghitung nilai besaran kesesuaian, Q(st) yang akan diterangkan kemudian.
3. Langkah ketiga adalah menentukan calon cabang manakah yang akan benar-benar

dijadikan cabang dengan memilih calon cabang yang memiliki nilai kesesuaian Q(st) terbesar. Setelah itu gambarkanlah percabangan. jika tidak ada lagi noktah keputusan, pelaksanaan algoritme CART akan dihentikan. Namun jika masih terdapat noktah keputusan pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang sehingga mendapatkan daftar calon cabang mutakhir yang baru. Berikut ini adalah contoh penerapan algoritme CART pada masalah klasifikasi terhadap data 8 nasabah pada Tabel 5.1.

A. Langkah Pertama Algoritme CART

Langkah pertama algoritme CART adalah menyusun calon cabang (candidate split). Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap
(exhaustive). Pada kasus ini yang menjadi variabel prediktor seluruhnya adalah

tabungan, aset, dan pendapatan. Mari kita susun calon cabang yang lengkap untuk masing-masing variabel prediktor ini. Perhatikanlah bahwa pembuatan calon cabang akan selalu patuh pada ciri khas algoritme CART, yaitu adanya noktah keputusan yang selalu bercabang duo atau bercabang biner. Colon cabang untuk variabel prediktor tabungan adalah sebagai berikut: 1. tabungan = Rendah, dan tabungan = (Sedang, Tinggi), 2. tabungan = Sedang, dan tabungan = (Rendah, Tinggi), dan 3. tabungan = Tinggi, dan tabungan = (Rendah, Sedang). Colon cabang untuk variabel prediktor aset adalah sebagai berikut: 1. aset = Rendah, dan aset = (Sedang, Tinggi), 2. aset = Sedang , dan aset = (Rendah, Tinggi), dan 3. aset = Tinggi, dan aset = (Rendah, Sedang). Pada variabel prediktor pendapatan yang sifatnya numerik, calon cabang yang dapat
Diktat Matakuliah Datamining

- 37 diusulkan adalah sebagai berikut: 1. pendapatan 25.000 dan pendapatan > 25.000, 2. pendapatan 50.000 dan pendapatan > 50.000, dan 3. pendapatan 75.000 dan pendapatan > 75.000. Mengingat ciri khas algoritme CART yang setiap noktah keputusannya bercabang biner, maka calon cabang akan diberi nama calon cabang kiri dan calon cabang kanan. Selengkapnya, keseluruhan calon cabang disajikan dalam Tabel 1.14. Tabel 5.2. Daftar calon cabang mutakhir masalah nasabah Bank Bhatara Putra (iterasi-1) Nomor Colon Cabang 1 2 3 4 5 6 7 8 9 Colon Cabang Kiri tabungan = Rendah tabungan = Sedang tabungan = Tinggi aset = Rendah asst = Sedang asst = Tinggi Pencloputon 25.000 Pencloputon 50.000 Pendupotan 75.000 Colon Cabang Kanan tabungan = (Sedang, Tinggi) tabungan = (Rendah, Tinggi) tabungan = (Rendah, Sedang) aset = (Sedang, Tinggi) asst = (Rendah, Tinggi) aset = (Rendah, Sedang) penclapotan > 25.000 pencloputon > 50.000 penclopaton > 75-000

Mungkin ada pertanyaan yang mengganggu kita, yaitu mengapa kita perlu membubuhkan kata

calon pada istilah calon cabang?. Penggunaan kata tersebut memang diperlukan karena
kesembilan calon cabang pads Tabel 5.2. tidak seluruhnya menjadi cabang pada noktah keputusan. Lalu bagaimana kita menentukan
1. calon cabang manakah yang akan benar-benar menjadi cabang noktah keputusan 2. calon cabang manakah yang tidak atau belum akan menjadi cabang noktah keputusan?

Pertanyaan tersebut akan dijawab pada langkah kedua algoritme CART.

B. Langkah Kedua Algoritme CART (Iterasi-1)

Langkah kedua algoritme ini akan menilai kinerja keseluruhan calon cabang yang ada pada daftar calon cabang mutakhir. Untuk saat ini daftar calon cabang mutakhir tampak dalam Tabel 5.2. Lalu bagaimana mengukur kinerja masing-masing calon cabang yang terdaftar pada daftar tersebut? Kinerja dari setiap calon cabang akan diukur melalui ukuran yang disebut kesesuaian
(goodness). Kesesuaian dari calon cabang s pada noktah keputusan t dilambangkan
Diktat Matakuliah Datamining

- 38 dengan Q(st) dan didefinisikan sebagai


Jumlahkategori

Q(st) = 2 PL PR dalam hal ini

j =1

P( j t L ) P( j t R )

5.1

tL = calon cabang kiri dari noktah keputusan t tR = calon cabang kanan dari noktah keputusan t

Bila didefinsikan besarannya: persamaan 5.1 menjadi Q(st) = 2 PL PR (st) 5.2 Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam daftar calon cabang mutakhir, yaitu Tabel 5.2, disajikan dalam Tabel 5.3. Tabel 5.3. Perhitungan nilai kesesuaian untuk calon cabang 1, 2, 3, 4, 5, 6, 7, 8, 9
Nomor Colon Cobang 1 2 3 4 5 6 PL 3/8= 0,375 PR Resiko Kredit Buruk 3/8= 0,375 5/8= 0,625 2/8=0,250 2/8=0,250 4/8=0,500 2/8=0,250 6/8=0,75 6/8=0,75 4/8=0,5 6/8=0,75 Baik Buruk Baik Buruk Baik Buruk Baik Buruk Baik P(jtL) 1/3= 0,333 2/3= 0,667 3/3= 1 0/3=0 1/2=0,5 1/2=0,5 0/2=0 2/2=1 3/4=0,75 1/4=0,25 2/2=1 P(jtR) 2 PL PR (st) 0,933 1,2 0,333 1,667 0,5 1 Q(st) 0,4375 0,5625 0,125 0,625 0,25 0,375

5/8= 0,625 Baik

4/5= 0,8 0,46875 1/5= 0,2 2/5= 0,4 0,46875 3/5=0,6 4/6=0,667 0,375 2/6=0,333 5/6=0,833 1/6=0,167 2/4=0,5 2/4=0,5 3/6=0,5 0,375 0,5 0,375

Diktat Matakuliah Datamining

- 39 Buruk 7 8 9 3/8=0,375 5/8=0,625 7/8=0,875 5/8=0,625 3/8=0,375 1/8=0,125 Baik Buruk Baik Buruk Baik Buruk 0/2=0 1/3=0,333 2/3=0,667 2/5=0,4 3/5=0,6 4/7=0,571 3/7=0,429 3/6=0,5 4/5=0,8 1/5=0,2 3/3=1 0/3=0 1/1=1 0/1=0 0,21875 0,857 0,1875 0,46875 1,2 0,5625 0,46875 0,933 0,4375

Untuk mendapatkan gambaran mengenai cars untuk mendapatkan Tabel 5.3, berikut adalah penjelasan mengenai perhitungan nilai kesesuaian, misalnya bagi calon cabang nomor 4, yaitu calon cabang yang terdiri atas calon cabang kiri, yaitu asset Rendah, dan calon cabang kanan, yaitu aset = (Sedang, Tinggi). Ada 2 buah catatan yang memenuhi syarat aset = Rendah, yaitu catatan B dan G (Iihat Tabel 1.13). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 8 buah, yaitu catatan A, B, C, D, E, F, G, dan H, sehingga dari Persamaan diatas didapatkan:

= 2/8 = 0,25 Ada 6 buah catatan yang memenuhi syarat aset = (Sedang, Tinggi), yaitu catatan A, C, D, E, F, dan H (lihat Tabel 5.2.). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 8 buah, yaitu catatan A, B, C, D, E, F, G, dan H, sehingga dari Persamaan di atas didapatkan:

Dari dua buah catatan yang memenuhi syarat calon cabang kiri, yaitu aset = Rendah, adalah catatan B dan G: 1. tak ada di antaranya yang memenuhi kategori risiko kredit Baik sehingga dari Persamaan di atas didapatkan:

2. keduanya memenuhi kategori risiko kredit = Buruk sehingga dari Persamaan di atas didapatkan: :

Diktat Matakuliah Datamining

- 40 Enam buah catatan yang memenuhi syarat calon cabang kanan, yaitu aset = (Sedang, Tinggi) adalah catatan A, C, D, E, F, dan H:
1. Lima catatan di antaranya, yaitu catatan A, D, E, F, dan H, memenuhi kategori risiko kredit

= Baik sehingga dari Persamaan di atas didapatkan:

2. Satu catatan di antaranya, yaitu catatan C, memenuhi kategori risiko kredit = Buruk

sehingga dari Persamaan di atas didapatkan:

Selanjutnya didapatkan: 1. nilai dari besaran 2PLPR =2(0,25)(0,75)=0,375 2. nilai dari besaran, lihat Persamaan di atas adalah
Jumlahkategori

Q(st) = 2 PL PR

j =1

P( j t L ) P( j t R )

=0 0,833 + 1 0,167 = 1,667

dan akhirnya didapatkan pula = Q(st) = 2 PL PR (st) = 2(0,25)(0,75)(1,667) = 0,6 Perhitungan nilai kesesuaian terhadap calon cabang nomor 4 dapat diambil analoginya sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain Selengkapnya, hasil perhitungan itu tersaji pada Tabel 5.3.
C. Langkah Ketiga. Algoritme CART (Iterasi-1)

Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-benar dijadikan cabang. Hal ini dilakukan dengan memilih calon cabang yang memiliki nilai kesesuaian Q(st) terbesar. Setelah itu, gambarkanlah percabangan sesuai hasil menjalankan algoritme. Jika tidak ada lagi noktah keputusan, pelaksanaan algoritme CART akan dihentikan. Namun, jika masih terdapat noktah keputusan, pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang. Dari Tabel 5.3. tampak bahwa calon cabang nomor 4 adalah calon cabang dengan nilai besaran kesesuaian terbesar daripada calon cabang yang lain maka calon cabang inilah yang akan kita pilih sebagai cabang pada tahap ini sehingga kita memperoleh Gambar 5.2. dari iterasi-1 ini.

Diktat Matakuliah Datamining

- 41 -

Gambar 5.2. Pohon keputusan bagai masalah klasifikasi data nasabah Bank Bhatara putra (iterasi-1) Dari Gambar 5.2. tampak: 1. Pada noktah dasar kita masih berhadapan dengan seluruh catatan, yaitu catatan A, B, C, D, E, F, G, dan H. 2. Colon cabang nomor 4 kini telah benar-benar menjadi c a b a n g . A da p un c a b a n g k i r i ny a , y a i t u c a b a n g y a n g memenuhi syarat aset = Rendah dipenuhi oleh catatan B dan G, dan karena nilai variabel prediktor bagi kedua catatan ini seluruh nya adalah risiko kredit = Buruk, maka noktah terminasi akan dihasilkan. 3, Cabang kanannya, yaitu cabang yang memenuhi syarat aset = (Sedang,Tinggi) dipenuhi oleh catatan A, B, D, E, F, dan H, dan karena nilai variabel prediktor bagi catatan-catatan ini ada yang memiliki risiko kredit = Buruk, maka dihasilkanlah noktah keputusan. Karena merupakan noktah keputusan pertama, kita dapat menyebutnya noktah keputusan A. Noktah ini akan bercabang lebih lanjut karena bukan termasuk noktah terminasi. Ini adalah hasil iterasi-1 dalam menjalankan algoritme CART. Dari Gambar 5.2. tampak jelas bahwa noktah keputusan masih ada sehingga kita harus kembali ke langkah kedua dan kali ini kita telah mulai memasuki iterasi-2.
D. Langkah Kedua Algoritme CART (Iterasi-2)

Langkah kedua algoritme ini akan menilai kinerja dari keseluruhan calon cabang yang ada pada daftar calon cabang mutakhir. Untuk saat ini, daftar calon cabang mutakhir berasal dari daftar sejenis sebelumnya (yaitu, Tabel 5.3) dengan membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah sebelumnya, seperti yang terlihat pada Tabel 5.4. Daftar calon cabang mutakhir masalah nasabah Bank Bhatara Putra (iterasi-2)

Diktat Matakuliah Datamining

- 42 -

.Nomor Colon Cabang 1 2 3 5 6 7 8 9

Colon Cabang Kiri tabungan = Rendah tabungan = Sedang tabungan = Tinggi Asset = Sedang Asset = Tinggi pendapatan 25.000 Pendapatan 50.000 Pendapatan 75.000

Colon Cabang Kanan tabungan = (Sedang, Tinggi) tabungan = (Rendah, Tinggi) tabungan = (Rendah, Sedang) aset = (Rendah, Tinggi) Asset = 9rendah, tinggi0 pendapatan > 25.000 pendapatan > 50.000 pendapatan > 75.000

Tampak bahwa Tabel 5.4. sebenarnya berasal dari Tabel 5.2. dengan membuang calon cabang 4 yang pada langkah ketiga iterasi-1 telah berhasil menjadi cabang. Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam daftar calon cabang mutakhir, yaitu Tabel 5.4, disajikan dalam Tabel 5.5. Tabel 5.5. Perhitungan nilai kesesuaian untuk calon cabang 1, 2, 3, 5, 6, 7, 8, 9
Nomor Colon Cobang 1 2 3 4 5 6 4/6=0,667 2/6=0,333 Baik 2/6=0,333 4/6=0,667 Baik 3/4=0,75 2/2=1 2/2=1 0/2=0 3/4=0,75 1/4=0,25 4/4=1 0/4=0 3/3=1 0/3=0 1/1=1 0/1=0 0,27778 0,400 0,11111 0,5 0,667 0,33333 0,44444 1,000 0,44444 0,44444 0,500 0,22222 0,44444 GMG 0,22222 PL PR Risiko Kredit P(j t L) 1/1=1 3/3=1 1/2=0,5 P(j t R) 4/5=0,8 1/5=0,2 2/3=0,667 0,5 1/3=0,333 4/4=1 0/4=0 0,44444 1,000 0,44444 0,667 0,33333 2 P LP R Q(st) (st) 0,25926

1/6=0,167 3/6=0,833 Baik 3/6=0,5 3/6=0,500 Baik

0,27778 0,933

Buruk 0/I=0 Buruk 0/3=0 2/6=0,333 4/6=0,667 Baik Buruk 1/2=0,5

Buruk 1/4=0,25 Buruk 0/2=0 7 2/6=0,333 4/6=0,667 Boik 1/2=0,5

Buruk 1/2 =0,5 8 9 3/6=0,5 3/6=0,5 Baik 2/3=0,667 4/5=0,8 Buruk 1/3=0,333 5/6=0,833 1/6=0,167 Boik Buruk 1/5=0,2

Diktat Matakuliah Datamining

- 43 Untuk mendapatkan gambaran mengenai caras mendapatkan Tabel 5.5. berikut ini adalah penjelasan terhadap perhitungan nilai kesesuaian, misalnya saja bagi calon cabang nomor 3, yaitu calon cabang yang terdiri atas calon cabang kiri (tabungan = Tinggi) dan calon cabang kanan (tabungan = [Rendah, Sedang]). Hendaknya kita tidak lupa bahwa noktah yang tengah kita kerjakan percabangan nya saat ini adalah noktah keputusan A dan noktah ini hanya menyangkut catatan 1, 3, 4, 5, 6, dan 8. Dari catatan-catatan pada noktah keputusan A, terdapat 2 buah catatan yang memenuhi syarat tabungan = Tinggi yaitu catatan C dan F (lihat Tabel 5.4). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 6 buah, yaitu catatan A, C, D, E, F, dan H sehingga dari Persamaan diatas didapatkan:

Selain itu terdapat 4 buah catatan yang memenuhi syarat tabungan = (Rendah, Sedang) yaitu catatan A, D, E, dan H (lihat Tabel 1.13). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 6 buah, yaitu catatan A, C, D, E, F, dan H sehingga dari Persamaan di atas didapatkan:

Dari dua buah catatan yang memenuhi syarat calon cabang kiri, tabung = Tinggi yaitu C dan F 1. Satu catatan di antaranya, yaitu catatan F, memenuhi kategori risiko kredit = Baik sehingga dari Persamaan di atas didapatkan:

2. Satu catatan lainnya, yaitu catatan C, memenuhi kategori risiko kredit = Buruk sehingga dari Persamaan di atas didapatkan:

Diktat Matakuliah Datamining

- 44 Dari empat buah catatan yang memenuhi syarat calon cabang kanan, tabungan = (Rendah, Sedang), yaitu catatan A, D, E, dan H: 1. Semuanya memenuhi kategori risiko kredit = Baik sehingga dari Persamaan di atas didapatkan:

2. Tidak ada catatan yang memenuhi kategori risiko kredit Buruk sehingga dari Persamaan di

atas didapatkan:

Selanjutnya didapatkan: 1. nilai dari besaran 2PLPR = 2(0,333)(0,667) = 0,4444 2. nilai dari besaran
Jumlahkategori

Q(st) =

j =1

P( j t L ) P( j t R )

=0,5 1 + 0,5 0 = 1

dan akhirnya didapatkan pula


Q(st) = 2 PL PR (st) = 2(0,333)(0,667)(I)=0,4444

Perhitungan nilai kesesuaian terhadap calon cabang nomor 3 dapat diambil analoginya sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain. Selengkapnya hasil perhitungan tersaji pada Tabel 1.17

E. Langkah Ketiga Algoritme CART (Iterasi-2)

Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benarbenar dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang memiliki nilai kesesuaian (st) terbesar. Setelah itu gambarkanlah percabangan sesuai hasil menjalankan algoritme. Jika tidak ada lagi noktah keputusan pelaksanaan algoritme CART akan dihentikan. Namun, jika masih terdapat noktah keputusan, pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang. Dari Tabel 5.5 tampak bahwa calon cabang nomor 3 dan 7 adalah calon cabang dengan nilai besaran kesesuaian terbesar daripada calon cabang yang lain maka salah satu
Diktat Matakuliah Datamining

- 45 dari calon cabang itulah yang akan kita pilih pada tahap ini sehingga kita memperoleh Gambar 5.3. dari iterasi-2. Gambar 5.3. Pohon keputusan bagi masalah klasifikasi data nasabah Bank Bhatara Putra (iterasi-2)

Dari Gambar 5.3. terlihat bahwa: 1. Pada noktah keputusan A, kita masih berhadapan dengan catatan A, C, D, E, F, H. 2. Colon cabang nomor 3 kini telah benar-benar menjadi c a b a n g . A d a p u n c a b a n g ki r i n ya , ya i t u c a ba n g y a n g memenuhi syarat tabungan = Tinggi dipenuhi oleh catatan C dan F. Karena kedua catatan tersebut memiliki nilai variabel p r e d i k t o r y a n g b e r b e d a , ma k a d i h a s i l k a n l a h n o k t a h keputusan. Karena merupakan noktah keputusan kedua, kita dapat menyebutnya noktah keputusan B, dan sesuai dengan namanya, noktah ini akan bercabang lagi.

Diktat Matakuliah Datamining

- 46 3. Cabang kanannya, yaitu cabang yang memenuhi syarat tabungan = (Rendah, Sedang) dipenuhi oleh catatan A, D, E, dan H, dan karena nilai variabel prediktor bagi catatancatatan ini semuanya soma, yaitu risiko kredit = Baik, maka dihasilkanlah noktah terminasi. Sesuai dengan namanya, noktah tersebut tidak akan bercabang lagi. Ini adalah hasil iterasi-2 dalam menjalankan algoritme CART. Dari Gambar 1.8. tampak jelas bahwa noktah keputusan masih ada sehingga kita hares kembah ke langkah kedua, dan kah ini kita telah memulai memasuki iterasi-3.

F. Langkah Kedua Algoritme CART (Iterasi-3)

L a n g k a h k e d u a a l gor i t me i ni a k a n me n i l ai k i ne r j a d a ri keseluruhan calon cabang yang ada pada daftar calon cabang mutakhir. Untuk saat ini, daftar calon cabang mutakhir berasal dari daftar sejenis sebelumnya (Tabel 5.2.), dengan membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah sebelumnya. Tabel 5.6. Daftar calon cabang mutakhir masalah nasabah Bank Bhatara Putra (iterasi-3) Cabang Nomor Colon 1 2 5 6 7 8 9

Colon Cabang Kiri tabungan = Rendah tabungan = Sedang aset = Sedang aset = Tinggi pendapatan 25.000 Pendapatan 50.000 Pendapatan 75.000

Colon Cabang Kanan tabungan = (Sedang, Tinggi) tabungan = (Rendah, Tinggi) aset = (Rendah, Tinggi) aset = (Rendah, Sedang) pendapatan > 25.000 pendapatan > 50.000 pendapatan > 75.000

Tampak bahwa Tabel 5.6. sebenarnya berasal dari Tabel 5.4, yang telah membuang calon cabang 3 yang pada langkah ketiga iterasi-2 telah berhasil menjadi cabang. Selanjutnya, hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam daftar calon cabang mutakhir (Tabel 5.6) disajikan dalam Tabel 5.7.

Diktat Matakuliah Datamining

- 47 Tabel 5.7. Perhitungan nilai kesesuaian untuk calon cabang I, 2, 5, 6, 7, 8, 9


Nomor Colon Cabang 1 2 3 4 5 6 7 8 9 1/2=0,5 1/2=0,5 1/2=0,5 1/2=0,5 2/2=1 0/2 =0 Baik Buruk Baik Buruk Baik Buruk Baik Buruk Baik Buruk 0/1 =0 1/1=1 1/1=1 0/1=0 1/2=0,5 1/2=0,5 1/2= 0,5 1/2= 0,5 1/2= 0,5 1/2= 0,5 1/1=1 0/1=0 0/1 =0 1/1=1 0/2=0 0/2=0 0 0 0 0 0 0 0 1,000 1,000 1,000 0 0 0 0,5 2,000 1 0,5 2,000 1 PL 0/2=0 0/2=0 PR 2/2=1 2/2=1 Risiko Kredit Baik Buruk Baik Buruk p(jt L ) 0 0 0 0 P(jt R) 2 P LP R Q ( s t ) (D(st) 1/2=0,5 1/2=0,5 1/2=0,5 1/2=0,5 0 0 1,000 1,000 0 0

2/2= 1 0/2= 0 2/2= 1 0/2= 0

G. Langkah Ketiga Algoritme CART (Iterasi-3)

Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-benar dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang memiliki nilai kesesuaian (st) terbesar. Setelah itu, gambarkanlah percabangan sesuai hasil menjalankan algoritme. Jika tidak ada lagi noktah keputusan, pelaksanaan algoritme CART akan dihentikan. Namun jika masih ada noktah keputusan pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang. Dari Tabel 5.7. tampak bahwa calon cabang nomor 5 don 6 adalah calon cabang dengan nilai besaran kesesuaian terbesar daripada calon cabang lainnya. Oleh karena itu salah satu dari calon cabang itulah yang akan kita pilih pada tahap ini sehingga kita memperoleh Gambar 5.4. (yang identik dengan Gambar 51. ) pads iterasi-3 ini. Karena Gambar 5.5.(Pohon keputusan bagi masalah klasifikasi data nasabah Bank Bhatara Putra (Iterasi-3)) sama persis dengan Gambar 5.4. maka tidak perlu digambar lagi.

Diktat Matakuliah Datamining

- 48 Dari Gambar 5.4. terlihat bahwa 1. Pada noktah keputusan B, kita masih berhadapan dengan 2 catatan, yaitu catatan C dan F. 2. Calon cabang nomor 5 kini telah benar-benar menjadi c aba ng. Ka r e na c a ba ng kir i nya , yait u c a ba ng ya ng memenuhi syarat (aset = Medium) hanya diisi oleh sebuah catatan saja (catatan C), noktah terminasi akan dihasilkan sehingga noktah ini tidak akan bercabang lagi. 3. cabang kanannya, yaitu cabang yang memenuhi syarat tabungan = (Rendah, Tinggi) dipenuhi oleh catatan F. Karena menjadi satu-satunya catatan pada cabang ini, noktah terminasi akan dihasilkan. Sesuai dengan namanya, noktah tersebut tidak akan bercabang lagi. Karena pada akhir langkah ketiga iterasi-3 ini tidak ada lagi noktah keputusan, iterasi akan dihentikan dan Gambar 5.5. adalah pengetahuan yang dihasilkan dari fungsi klasifi-kasi pada data mining.
5.4. Klasifikasi Pengembangan Selanjutnya.

Apakah algoritme CART merupakan satu-satunya algoritme bagi pemecahan masalah klasifikasi? Ternyata tidak! Para peneliti dan pakar data mining tak pernah lelah mencoba merancang algoritme baru bagi pemecahan masalah klasifikasi. Pembaca yang menaruh minat untuk mendalami algoritme klasifikasi lain dapat mempelajari algoritme berikut (Berry dan Browne, 2006): 1. Algoritme mean vector, 2. Algoritme k-nearest neighbor, bor, 3. Algoritme ID3, 4. Algoritme C4.5, dan 5. Algoritme C5.0. Pada bab ini telah menguraikan beberapa hal yang terkait dengan masalah klasifikasi, yaitu 1. Istilah-istilah dasar pada masalah klasifikasi, 2. Contoh prototipe masalah klasifikasi dan pengetahuan yang dihasilkannya beserta interpreta-sinya, dan
3. Detail langkah-langkah yang dijalani oleh salah satu algoritme yang digunakan data

mining dalam menjalankan fungsi mayor pertamanya, yaitu algoritme CART


(Classification and Regression Trees).

Dengan mencoba mendalami salah satu algoritme klasifikasi, yaitu CART penulis yakin bahwa pembaca akan memiliki dasar yang kuat untuk mempelajari algoritme lain bagi masalah klasifikasi.
Diktat Matakuliah Datamining

- 49 -

VI. FUNGSI MAYOR UNTUK PENGELOMPOKAN


Sebagai gambaran Anda akan diberi data tentang 8 nasabah yang pernah memperoleh kredit dari Bank Bhatara Putra. Selain itu data mereka kali ini menyankut jumlah rumah dan mobil yang mereka miliki. Data selengkapnya disajikan dalam Tabel 6.1. Tabel 6.1. Data jumlah rumah dan mobil yang dimiliki 8 nasabah Bank Bhatara Putra
Nasabah A B C D E F G H Jumlah Rumah 1 3 4 5 1 4 1 2 Jumlah Mobil 3 3 3 3 2 2 1 1

Kita akan mencoba menyimak, merenungkan, dan mempelajari data pada Tabel 1.20. sehingga diharapkan kelak kita dapat mengelompokkan (clustering) kedelapan nasabah tersebut ke dalam d u a a t a u l e b i h k e l o m p o k n a s a b a h . P e n g e l o m p o k a n y a n g diharapkan adalah pengelompokan yang mampu menghasilkan kelompok nasabah yang memenuhi sifat berikut. 1. Nasabah yang jumlah rumah dan mobilnya hampir sama akan berada pada kelompok nasabah yang sama, 2. Nasabah yang jumlah rumah dan mobilnya cukup berbeda akan berada pada kelompok nasabah yang berbeda. Bab ini akan membahas fungsi mayor kedua data mining, yaitu pengelompokan. Pembahasannya akan mencakup: 1. Pengenalan beberapa istilah dasar Bagian ini akan memudahkan kita untuk mengikuti pembahasan tentang masalah pengelompokan. 2. Prototipe masalah pengelompokan dan pengetahuan yang dihasilkannya Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam mendapatkan gambaran mengenai apakah yang sebenarnya menjadi input serta pengetahuan apakah yang menjadi output dari fungsi mayor pengelompokan. Selanjutnya interpretasi terhadap pengetahuan yang menjadi produk dari fungsi mayor pengelompokan akan diberikan.

Diktat Matakuliah Datamining

- 50 3. Algoritme pengelompokan Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu algoritme yang digunakan data mining dalam menjalankan fungsi mayor keduanya yaitu algoritme k-means. 4. Pengembangan selanjutnya Bagian ini berisi informasi yang dapat digunakan para pembaca yang tertarik untuk mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor pengelompokan.

6.1.

Pengenalan Beberapa istilah dasar

Pada masalah pengelompokan, hal-hal yang akan dikelompokkan disebut objek atau catatan. Dalam Tabel 6.1. objek dapat mengambil bentuk kedelapan nasabah yang akan dikelompokkan. Setiap objek dibedakan (dari objek lain) berdasarkan atribut yang dimilikinya masing-masing. Dalam kasus pengelompokan terhadap objek pada Tabel 6.1. setiap objek dicirikan oleh atribut yang berupa jumlah rumah dan mobil yang dimiliki. Kumpulan dari seluruh atribut disebut data input. Pada masalah pengelompokan terhadap objek pada Tabel 6.1. data input berupa himpunan dari keseluruhan atribut jumlah rumah dan mobil yang dimiliki objek (berupa nasabah) yang akan dikelompokkan. Algoritme pengelompokan akan menggunakan data input, sesuai dengan pengertian data mining untuk menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam pengelompokan? Pengetahuan yang berupa penentuan beberapa kelompok catatan yang memiliki kemiripan atribut. Jadi secara ringkas pada pengelompokan catatan-catatan yang memiliki kemiripan atribut akan dikelompokkan ke dalam salah satu dari sekian kelompok. Adapun catatan-catatan yang kurang memiliki kesamaan atribut akan ditempatkan pada kelompok yang berbeda. Masalah pengelompokan secara ringkas dapat digambarkan sebagai berikut. 1. Masalah pengelompokan berangkat dari data input yang tersedia misalnya Tabel 6.1 2. Data input diolah dengan. menggunakan algoritme pengelompokan. 3. Masalah pengelompokan berakhir dengan dihasilkannya 2 atau lebih kelompok objek sehingga objek-objek yang memiliki kemiripan atribut akan dima sukkan ke dalam kelompok yang sama dan objek-objek yang kurang memiliki kemiripan atribut akan dimasukkan dalam kelompok yang berbeda.

Diktat Matakuliah Datamining

- 51 6.2. Prototipe Masalah Pengelempokan dan Pengetahuan yang Dihasilkannya .

Sebagai contoh kedelapan nasabah pada Tabel 6.1. hendak dikelompokkan ke dalam 3 kelompok. Tabel 6.2. adalah contoh hasil pengelompokan, sebagai jawaban bagi masalah pengelompokan dengan data input seperti yang tertera pada Tabel 6.2. yang dalam hal ini atributnya berupa jumlah rumah dan mobil setiap nasabah. Tabel 6.2. Hasil pengelompokan nasabah ke dalam 3 kelompok
Kelompok (Cluster) 1 2 3 Anggota Kelompok {B} {A, E, G, H} {C, D, F)

Hasil pengelompokan pada Tabel 6.2. merupakan pengetahuan yang dihasilkan dari fungsi pengelompokan. Bentuk pengetahuan lain yang didapatkan adalah interpretasi berikut. 1. Kelompok nasabah pertama adalah kelompok yang unik karena hanya memiliki seorang anggota saja, yaitu nasabah B yang kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan kelompok nasabah yang memiliki jumlah rumah sedang (3 buah) dan jumlah mobil banyak (3 buah). 2. Kelompok nasabah kedua memiliki 4 orang anggota, yaitu. nasabah A, E, G, dan H, yang kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan kelompok nasabah yang memiliki rata-rata jumlah rumah sedikit (1,25 buah) dan rata-rata jumlah mobil yang sedikit pula (1,75 buah). 3. Kelompok nasabah ketiga memiliki 3 orang anggota, yaitu nasabah C, D, dan. F, yang kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan kelompok nasabah yang memiliki rata-rata jumlah rumah banyak (4,33 buah) dan rata-rata jumlah mobil yang cukup banyak (2,67 buah).

6.3. Algoritne Pengelompokan k-Means

P e mb a h a s a n s e b e l u mn y a d a p a t k i t a r i ng k a s da l a m t i g a penjelasan berikut. 1. Pertama kita memiliki data input berupa atribut dari 8 buah catatan nasabah seperti yang tertera pada Tabel 6.1. dan kita ingin memperoleh pengetahuan mengenai bagai-mana catatan-catatan itu harus dikelompokkan agar diperoleh kelompok catatan yang memiliki kemiripan atribut. 2. Kedua, data input itu kelak akan kita jadikan input bagi suatu algoritme, yang saat ini belum kita ketahui jenis algoritmenya.
Diktat Matakuliah Datamining

- 52 3. Ketiga, sebagai keluaran dari algoritme, yang saat ini belum kita ketahui jenisnya, kita akan memperoleh pengetahuan berupa kelompok catatan yang memiliki kemiripan atribut. Bagian ini akan membahas detail dari salah satu algoritme yang dapat menghasilkan kelompok catatan yang memiliki kemiripan atribut. Algoritme itu disebut algoritme pengelompokan k - means yang akan menghasilkan kelompok catatan sebanyak k buah. Algorit me k-means pertama kali digagas oleh J. MacQueen (Larose, 2005). Di bagian ini, kita akan menerapkan algoritme k-means pada data dalam Tabel 6.1. Langkah-langkah pada algoritme k-means adalah sebagai berikut. 1. Langkah pertama: Tanyakan kepada pemakai algoritme k-means, catatan-catatan yang ada akan dibuat menjadi berapa kelompok, sebutlah sebanyak k kelompok. 2. Langkah kedua: Secara sembarang, pilihlah k buah catatan (dari sekian catatan yang ada) sebagai pusat-pusat kelompok awal.
3. Langkah ketiga: Untuk setiap catatan, tentukan pusat kelompok terdekatnya

dan tetapkan catatan tersebut sebagai anggota dari kelompok yang terdekat pusat kelompoknya. Hitung rasio antara besaran Between Cluster Variation dengan
Within Cluster Variation, lalu bandingkan rasio tersebut dengan rasio sebelumnya

(bila sudah ada). Jika rasio tersebut membesar, lanjutkan ke langkah keempat. Jika tidak, hentikan prosesnya. 4. Langkah keempat: Perbarui pusat-pusat kelompok (berdasarkan kelompok yang didapat dari langkah ketiga) dan kembalilah ke langkah ketiga. Berikut adalah contoh penerapan algoritme k-means pada masalah pengelompokan terhadap data dari 8 nasabah pada Tabel 6.1.

A. Langkah Pertama Algoritme k-means

Apa yang menjadi langkah pertama algoritme k-means? Langkah pertama dari algoritme k-means adalah menanyakan kepada pemakai algoritme k-means, catatan-catatan yang ada a k a n d i b u a t m e n j a d i b e r a p a k e l o m p o k . J i k a j u m l a h kelompoknya tiga, nilai k-nya adalah 3 atau k = 3.

B. Langkah Kedua Algoritme k-means

Pada langkah kedua algoritme ini kita akan secara sembarang memilih k = 3 buah catatan (dari 8 catatan yang ada) sebagai pusat-pusat kelompok awal, misalnya
Diktat Matakuliah Datamining

- 53 1. Catatan B sebagai pusat kelompok 1 sehingga m1 (3,3), 2. Catatan E sebagai pusat kelompok 2 sehingga m2 =(1,2), dan 3. Catatan F sebagai pusat kelompok 3 sehingga m3 = (4,2).

C. Langkah Ketiga Algoritme k-means (Iterasi-1)

Pada langkah ketiga algoritme ini setiap catatan akan ditentukan pusat kelompok terdekatnya. catatan tersebut akan ditetapkan sebagai anggota kelompok yang terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.3. Tabel 6.3. Perhitungan Jarak catatan ke pusat kelompok dan penetapan keanggotaan catatan (iterasi-1)
Jarak ke pusat Jarak ke pusat Jarak ke pusat Jarak terdekat ke kelompok kelompok 1 kelompok 2 kelompok 3 2 0 1 2 2,236 1,414 2,828 2,236 1 2,236 3,162 4,123 0 3 1 1,414 3,162 1,414 1 1,414 3 0 3,162 2,236 C2 Cl C3 C3 C2 C3 C2 C2

Catatan A B C D E F G H

Dari Tabel 6.3. didapatkan keanggotaan sebagai berikut: 1. kelompok 1 (atau C1) = {B}, 2. kelompok 2 (atau C2) = {A, E, G, H}, dan 3. kelompok 3 (atau C3) = {C, D, F}. Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation
(BCV) dengan Within Cluster Variation (WCV), seperti berikut:

1. BCV = d( m 1 , , m 2 ) + d ( m 1 , , m 3 ) + d(m 2 ,m 3 ) = 6,6 50 (dalam hal ini, d(m i ,m j ) menyatakan jarak Euclides dari mi ke m j ) 2. WCV= 12 + 02 + 12 + 1,4142 + 02 + 02 + 12 + 1,4142 = 7 Sehingga besarnya rasio adalah

BCV = 0,950 WCV Mengingat langkah sebelumnya belum mendapatkan rasio ini, maka perbandingan rasio belum dapat dilakukan dan algoritme dilanjutkan ke langkah keempat.
Diktat Matakuliah Datamining

- 54 -

D. Langkah Keempat Algoritme k-means (Iterasi-1)

Pada langkah ini pembaruan pusat-pusat kelompok akan dilakukan seperti berikut: 1. m1 = rata-rata (m B )= (3, 3) 2. m2 = rata-rata (mA, mE, mG, mH) = (1, 25;1,75) 3. m3 = rata-rata (mC , mD, mF) = (4,333; 2,667) Selanjutnya, kita akan kembah ke langkah ketiga.

E. Langkah Ketiga Algoritme k-means (Iterasi-2)

Pada langkah ketiga algoritme ini, pusat kelompok terdekat dari setiap catatan akan ditentukan. Tetapkan catatan tersebut sebagai anggota kelompok yang terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.4. Tabel 6.4. Perhitungan jarak catatan ke pusat kelompok dan penetapan keanggotaan catatan (iterasi-2)
Jarak ke Jarak ke Jarak ke Jarak pusat pusat pusat terdekat ke kelompok 1 kelompok 2 kelompok 3 kelompok 2 0 1 2 2,236 1,414 2,828 2,236 1,275 1,768 3,021 3,953 0,354 2,813 0,791 1,061 3,350 1,374 0,471 0,745 3,399 0,745 3,727 2,867 C2 C1 C3 C3 C2 C3 C2 C2

Catatan A B c D E F G H

Dari Tabel 6.4. didapatkan keanggotaan sebagai berikut: 1. kelompok 1 (atau C1) = {B}, 2. kelompok 2 (atau C2) = {A, E, G, H}, dan 3. kelompok 3 (atau C3) = {C, D, F}. Pada langkah ini, rasio antara besaran Between Cluster Variation (BCV) dengan
Within Cluster Variation (WCV) akan dihitung seperti berikut:

1. BCV = d(m1,m2) + d(m1,m3)+ d(m2, m3) = 6,741 (dalam hal ini d(m i ,m j ) menyatakan jarak Euclides dari mi ke m j )

Diktat Matakuliah Datamining

- 55 2. WCV=1,2752 + 02 + 0,47 12 + 0 ,7452 + 0,3542 + 0,7452 + 0 ,7912 + 1,0612 = 4,833 sehingga diperoleh besarnya rasio, yaitu

BCV = 1,394 WCV Tampak bahwa nilai rasio ini (1,394) membesar dibandingkan rasio sejenis yang dida-patkan pada langkah sebelumnya (0,950). Oleh karena itu algoritme dilanjutkan ke langkah keempat.

F. Langkah Keempat Algoritme k-means (Iterasi-3)

Pada langkah ini pembaruan pusat-pusat kelompok akan dilakukan seperti berikut: 1. 2. 3. m1 = rata - rata(mB) = (3,3) m2 = rata-rata (mA, mE, mG, mH) = (1, 25; 1, 75) m3 = rata-rata (mC, mD, mF) = (4,333; 2,667)

Selanjutnya kita akan kembali ke langkah ketiga.


7. Langkah Ketiga Algoritme k-means (Iterasi-3)

Pada langkah ketiga algoritme ini pusat kelompok terdekat untuk setiap catatan akan ditentukan. Lalu tetapkan catatan tersebut sebagai anggota kelompok yang terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.5. Tabel 6.5. Perhitungan jarak catatan ke pusat kelompok dan penetapan keanggotaan catatan (iterasi-3)
Jarak ke pusat kelompok 1 2 0 1 2 2,236 1,414 2,828 2,236 Jarak ke Jarak ke Jorak terdekat ke kelompok C2 C1 C3 C3 C2 C3 C2 C2

Catatan A B C D E F G H

pusat pusat kelompok 2 kelompok 3 1,275 1,768 3,021 3,953 0,354 2,813 0,791 1,061 3,350 1,374 0,471 0,745 3,399 0,745 3,727 2,867

Diktat Matakuliah Datamining

- 56 Dari Tabel 6.5. didapatkan keanggotaan sebagai berikut:


1. 2. 3.

kelompok 1 (atau C1) = {B}, kelompok 2 (atau C2) = {A, E, G, H}, dan kelompok 3 (atau C3) = {C, D, F}.

Pada langkah ini rasio antara besaran Between Cluster Variation (BCV) dengan
Within Cluster Variation (WCV) juga akan dihitung, seperti berikut:

1. BCV = d(m1,m2) + d(m1, m3) + d(m2,m3) = 6,741 (dalam hal ini, d(m i ,m j ) menyatakan jarak Euclides dari mi ke m j ) 2. WCV = 1,275 2 + ()2 + 0,4712 + 0,7452 + 0,3542 + 0,7452 + 0,7912 + 1,0612 = 4,833 sehingga diperoleh besarnya rasio, yaitu BCV = 1,394 WCV Tampak bahwa nilai rasio tersebut (1,394) sudah tidak lagi membesar disbanding kan dengan rasio sejenis yang didapatkan pada langkah sebelumnya (1,394). Oleh karena itu algoritme akan dihentikan.

6.4. Pengelompokan Pengembangan Selanjutnya

Apakah algoritme k-means merupakan satu-satunya algoritme bagi pemecahan masalah pengelompokan? Ternyata tidak! Para peneliti dan pakar data mining tidak pernah lelah mencoba merancang algoritme baru bagi pemecahan masalah pengelompokan. Pembaca yang menaruh minat untuk mendalami algoritme pengelompokan lain dapat mempelajari algoritme berikut (Berry dan Browne, 2006): 1. Algoritme hierarchical clustering, 2. Algoritme partitional clustering, 3. Algoritme single linkage, 4. Algoritme complete linkage, 5. Algoritme average linkage, 6. dan lain-lain. Jadi pada bab ini telah menguraikan beberapa hal yang terkait dengan masalah pengelompokan, yaitu ;

Diktat Matakuliah Datamining

- 57 1. Istilah-istilah dasar pada masalah pengelompokan, 2. Contoh prototipe masalah pengelompokan dan pengetahuan yang dihasilkannya beserta interpretasinya, dan 3. Detail langkah-langkah yang dijalani oleh salah satu algoritme yang digunakan data mining dalam menjalankan fungsi mayor keduanya, yaitu algoritme k-means. Dengan mencoba mendalami salah satu algoritme pengelompokan, yaitu k-means, kita yakin, bahwa kita kini telah memiliki dasar yang kuat untuk mempelajari algoritme lain bagi masalah ini.

Diktat Matakuliah Datamining

- 58 -

VII. FUNGSI MAYOR UNTUK ATURAN ASOSIASI


Sebagai gambaran kita akan diberi data daftar belanja 14 orang pengunjung yang pernah berbelanja di Toserba Favorit. Data tersebut meliputi item-item belanja yang dibeli oleh 14 orang tersebut. Data selengkapnya tampak dalam Tabel 7.1. Tabel 7.1. Daftar item belanja 14 pengunjung Toserba Favorit
Pengunjung ke1 2 3 4 5 6 7 8 9 10 11 12 13 14 Item Belania yang Dibeli Broccoli, green peppers, corn Asparagus, squash, corn torn, tomatoes, beans, squash Green peppers, corn, tomatoes, beans Beans, asparagus, broccoli Squash, asparagus, beans, tomatoes 7amoloes, corn Broccoli; tomatoes, green peppers Squash, asparagus, beans Beans, corn Green peppers, broccoli, beans, squash Asparagus, beans, squash Squash, irorflosparqvs, beans torn, green peppers, tomatoes, beans, bror(oli

Data pads Tabel 7.1. berasal dari masa lampau sehingga data tersebut menjadi data
historis atau data sejarah. Orang bijak selalu belajar dari pengalaman masa lampau,

artinya belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis Tabel 7.1.? Kita akan mencoba menyimak, merenungkan dan mempelajari data pada tabel tersebut. Harapannya kelak kita dapat menemukan aturan asosiasi (association rule) yang mampu mengidentifikasi item-item manakah yang seringkali dibeli secara bersamaan oleh para pengunjung. Bab ini akan membahas fungsi mayor ketiga dari data mining, yaitu aturan asosiasi. Pembahasannya akan mencakup: 1. Pengenalan beberapa istilah dasar Bagian ini akan memudahkan kita mengikuti pembahasan berikutnya tentang masalah aturan asosiasi. 2. Prototipe masalah aturan asosiasi dan pengetahuan yang dihasilkannya Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam

Diktat Matakuliah Datamining

- 59 mendapat kan gambaran tentang apakah yang sebenarnya menjadi input serta pengetahuan apakah yang menjadi output fungsi mayor aturan asosiasi. Selanjutnya interpretasi pada pengetahuan yang menjadi produk fungsi mayor aturan asosiasi akan diberikan. 3. Algoritme aturan asosiasi Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu algorit-me yang digunakan data mining dalam menjalankan fungsi mayor ketiganya, yaitu algoritme MBA (Market Basket Analysis). 4. Pengembangan selanjutnya Bagian ini berisi informasi yang dapat digunakan oleh para pembaca yang tertarik untuk mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor aturan asosiasi.

7.1. Pengenalan Beberapa Istilah Dasar

Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut demikian? Disebut data latihan (training data) karena kita akan berlatih dengan data tersebut untuk mendapatkan pengetahuan. Dan, disebut data pengalaman karena data tersebut berasal dari masa lampau. Algoritme aturan asosiasi akan menggunakan data latihan sesuai dengan pengertian data mining untuk menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam aturan asosiasi? Pengetahuan untuk mengetahui item-item belanja yang sering dibeli secara bersamaan dalam suatu waktu. Aturan asosiasi yang berbentuk if... then ... "atau jika ... maka ... " merupakan pengetahuan yang dihasilkan dari fungsi aturan asosiasi. Sebelum kita mempelajari cara untuk mengha-silkan aturan asosiasi, beberapa istilah yang amat teknis akan diperkenalkan terlebih dahulu. Istilah teknis pertama yang harus kita ketahui adalah item, yaitu barang yang dibeli atau barang yang menjadi objek kegiatan belanja. Jadi, untuk masalah Toserba Favorit, terdapat tujuh jenis item, yaitu (urut abjad) asparagus, beans, broccoli, corn, green peppers, squash, dan tomatoes. Himpunan item yang dilambangkan dengan I adalah himpunan dari semua jenis item yang akan dibahas. Jadi untuk kasus Toserba Favorit himpunan itemnya dijelaskan dengan persamaan berikut.

Diktat Matakuliah Datamining

- 60 Persamaan 7.1

I [Asparagus, Beans, Broccoli, Corn, Green peppers, Squash, Tomatoes] Himpunan item yang dibeli oleh pengunjung ke-i disebut transaksi ke-i yang dilambangkan dengan Ti sebagai contoh:

Persamaan 7.2

T1 = {Broccoli, green peppers, corn} T2 = {Asparagus, squash, corn} dst T14 = {Corn, green peppers, tomatoes, beans, broccoli} Himpunan dari seluruh transaksi dilambangkan dengan D sehingga:

Persamaan 7.3

D = {T1T2, , T14} Aturan asosiasi yang ingin dihasilkan kelak akan berbentuk implikasi berikut:

Persamaan 7.4

"Jika A, maka B" atau " A B Dalam hal ini, A disebut anteseden (atau pendahulu ) dari implikasi, sedangkan B disebut konsekuen (atau pengikut) dari implikasi. sebagai catatan aturan asosiasi yang kelak akan dihasilkan haruslah memenuhi dua sifat. Pertama baik A maupun B adalah himpunan bagian murni dari I jadi:

Persamaan 7.5

A,B I Kedua, himpunan A dan B adalah dua himpunan yang saling lepas, jadi:

Persamaan 7.6

AB= Salah satu ukuran kinerja bagi aturan asosiasi "A B" adalah besaran support (atau
dukungan ) yang dilambangkan dengan s(A B) dan didefinisikan sebagai:

Diktat Matakuliah Datamining

- 61 Persamaan 7.7

s(A B) = P(A B) = Ukuran kinerja yang lain bagi aturan asosiasi "A B " adalah besaran support yang dilambangkan dengan conf( A B) dan didefinisikan sebagai:
Persamaan 7.8

conf(A B) = P(AB) = Suatu itemset adalah suatu himpunan yang beranggotakan sebagian atau seluruh item yang menjadi anggota I. Beberapa contoh dari itemset adalah (Asparagus) atau [Asparagus, Beans}, demikian jugs dengan [Asparagus, Beans, Squash). Suatu itemset yang beranggotakan k buah item disebut k-itemset. Jadi: 1. Himpunan [Asparagus) adalah suatu itemset. Lebih spesifik lagi 1-itemset karena hanya beranggotakan satu buah item saja. 2. Himpunan {Asparagus, Beans} adalah suatu itemset. Lebih spesifik lagi 2itemset karena beranggotakan dua buah item. 3. Himpunan [Asparagus, Beans, Squash] adalah suatu itemset. Lebih spesifik lagi, 3-itemset karena beranggotakan tiga buah item. Besaran frekuensi itemset mengukur berapa kali sebuah itemset muncul sebagai bagian atau keseluruhan transaksi yang menjadi anggota daftar transaksi D. Sebagai contoh: 1. Frekuensi itemset {Asparagus} adalah 6 karena himpunan ini menjadi bagian dari enam transaksi pada Tabel 7.1. yaitu T2, T5, T6, T9, T12 , dan T13 . 2. Frekuensi itemset {Asparagus, Beans} adalah 5 karena himpunan inimen-jadi bagian dari lima transaksi pada Tabel 7.1., yaitu T5, T6, T9, T12 & T13 3. Frekuensi itemset {Asparagus, Beans, Squash} adalah 4 karena himpunan ini menjadi bagian dari empat transaksi pada Tabel 7.1. yaitu T6,T9, T12 & T13-

Diktat Matakuliah Datamining

- 62 Suatu itemset sering (frequent itemset) adalah suatu itemset yang memiliki frekuensi itemset minimal sebesar bilangan yang ditetapkan. Sebagai gambaran, bila kita tetapkan = 4, maka 1. Itemset {Asparagus, Beans, Squash} termasuk itemset sering karena memi-liki frekuensi itemset yang telah melebihi atau minimal sebesar = 4, 2. Itemset {Squash, Tomatoes} tidak termasuk itemset sering karena memiliki frekuensi itemset sebesar 3, artinya masih di bawah nilai yang ditetapkan. Itemset sering yang memiliki k buah anggota disebut k-itemset sering (frequent kitemset), misalnya itemset {Asparagus, Beans, Squash} termasuk 3-itemset sering

karena himpunan ini termasuk itemset sering dan memiliki 3 buah anggota. Himpunan dari seluruh k-itemset sering dilambangkan dengan F k . Masalah aturan asosiasi secara ringkas dapat digambarkan sebagai berikut. 1. Masalah aturan asosiasi berangkat dari data latihan yang tersedia, misalnya Tabel 7.1. Data latihan diolah dengan menggunakan algoritme aturan asosiasi. 2. Masalah aturan asosiasi berakhir dengan dihasilkannya sebuah pengetahuan yang direpresentasikan dalam bentuk sebuah diagram yang biasa disebut aturan asosiasi.

7.2. Prototipe Masalah Aturan Asosiasi dan Pengetahuan yang Dihasilkannya

Kembali pada data latihan yang tertera pada Tabel 7.1. berikut adalah contoh aturan asosiasi yang dihasilkan kelak: "Jika membeli asparagus, maka membeli beans." Aturan ini dapat diartikan bahwa: 1. Item asparagus mempunyai kecenderungan untuk dibeli bersama-sama dengan item beans, atau 2. Pengunjung Toserba Favorit yang membeli asparagus, mempunyai kecenderungan untuk juga membeli beans. Sebenarnya masih ada banyak aturan asosiasi yang dapat dihasilkan, namun demikian kiranya 1 dengan pembahasan prototipe masalah aturan asosiasi, kita dapat mengetahui definisi masalah aturan asosiasi, dan 2 . d e n g a n p e m b a h a s a n i n t e r p r e t a s i p e n g e t a h u a n y a n g dihasilkan oleh

Diktat Matakuliah Datamining

- 63 fungsi mayor aturan asosiasi, kita bisa mengetahui cara memaknai pengetahuan yang dihasilkan dari masalah ini.

7.3. Algoritme Aturan Asosiasi , MBA (Market Basklet Analysis)

Pembahasan sebelumnya dapat kita ringkas dalam tiga penjelasan. berikut. 1. Pertama, kita memiliki data historis berupa daftar item yang dibeli 14 pengunjung Toserba Favorit seperti yang tertera pada Tabel 7.1. dan. kita ingin memperoleh pengetahuan yang dapat diaplikasikan untuk menghasilkan aturan asosiasi sehingga dapat mengetahui item-item belanja yang sering dibeli bersama-sama oleh para pengunjung. 2. Kedua data itu kelak akan kita jadikan input bagi suatu algoritme yang saat ini belum kita ketahui jenis algoritmenya. 3. Ketiga sebagai keluaran algoritme yang saat ini belum kita ketahui jenisnya kita akan memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk pernyataan Bagian ini akan membahas detail dari salah satu algoritme yang dapat menghasilkan aturan asosiasi yaitu algoritme MarketBasket Analysis (MBA). Algoritme ini masuk dalam The Top Ten Algorithms in Data Mining (Wu dan Kumar, 2009). Langkah-langkah pada algoritme MBA dapat dibagi ke dalam tiga langkah besar yang kemudian dapat diuraikan menjadi langkah-langkah yang lebih terperinci. Ketiga langkah besar itu adalah sebagai berikut: 1. Langkah besar pertama, menetapkan besaran. (lihat pembahasann konsep itemset sering), nilai minimum besaran support dan besaran confidence yang diinginkan untuk dipenuhi oleh aturan asosiasi yang ingin dihasilkan 2. Langkah besar kedua menetapkan semua itemset sering yaitu itemset yang memi- liki frekuensi itemset minimal sebesar bilangan yang telah ditetapkan sebelumnya, 3. Langkah besar ketiga dari semua itemset sering hasilkan aturan asosiasi yang memenu hi nilai minimum support dan. confidence (yang jugs telah ditetapkan). Berikut adalah contoh penerapan algoritme MBA pada masalah aturan asosiasi terha-dap data belanja 14 orang pengunjung Toserba Favorit pada Tabel 7.1.

Diktat Matakuliah Datamining

- 64 A. Langkah Besar Pertama Algoritme MBA

Apa yang menjadi langkah besar pertama algoritme MBA? Langkah besar pertama algoritme MBA adalah menetapkan b e s a r n y a b es ar a n d a n n i l a i mi n i mu m s u p - p o r t d a n . confidence, misalnya =4, maka min(support)=30%, & min(confidence)= 70%.

B. Langkah Besar Kedua Algoritme MBA

Pada langkah ini kita akan menyusun semua itemset sering yaitu itemset yang memili ki frekuensi itemset minimal sebesar bilangan = 4 yang telah ditetapkan pada langkah besar pertama sebelumnya. Kita akan memulainya dengan membahas setiap 1-itemset berikut: {Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers}, {Squash}, dan {Tomatoes} adalah 1-itemset sering karena itemset ini berhasil muncul melebihi kali, atau 4 kali, dalam daftar D atau, untuk mudahnya, dalam Tabel 1.25. Dengan demikian F 1 = {{Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers}, {Squash}, {Tomatoes}}. Kita lanjutkan dengan membahas setiap 2-itemset berikut: 1. {Asparagus, Beans}, {Asparagus, Broccoli}, {Asparagus, Corn}, {Asparagus, Green peppers}, {Asparagus, Squash}, {Asparagus, Tomatoes}, {Beans, Broccoli}, {Beans, Corn}, {Beans, Green peppers}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Corn}, {Broccoli, Green peppers}, {Broccoli, Squash}, {Broccoli, Tomatoes}, {Corn, Green peppers}, {Corn, Squash}, {Corn, Tomatoes}, {Green peppers, Squash}, {Green peppers, Tomatoes}, dan {Squash, Tomatoes} 2. Pembaca dapat menjadikannya sebagai latihan bahwa penelaahan yang mendalam terhadap keseluruhan 2-itemset tersebut akan membawa kita pada suatu kesimpulan bahwa hanya {Asparagus, Beans}, {Asparagus, Squash}, {Beans, Corn}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Green peppers}, dan {Corn, Tomatoes} yang merupakan 2-itemset sering sehingga F2 = {{Asparagus, Beans}, {Asparagus, Squash}, {Beans, Corn}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Green peppers}, dan {Corn, Tomatoes}} Untuk meringankan kita dalam mengkaji F 3 , F 4 , F 5 , dan seterusnya gunakan aturan berikut:
Diktat Matakuliah Datamining

- 65 "Jika Z bukan itemset sering, maka Z A pasti bukan itemset sering, untuk setiap A." Aturan atau kaidah ini disebut aturan apriori. Contoh penerapan aturan apriori akan dijelaskan di bagian ini. Dari pembicaraan sebe- lumnya didapatkan bahwa {Asparagus, Broccoli} bukan 2-itemset sering maka menurut aturan apriori: {Asparagus, Broccoli, Corn} merupakan gabungan dari 2itemset {Asparagus, Broccoli}, yang tidak termasuk ke dalam 2-itemset sering, dengan 1-itemset sering {Corn}, maka {Asparagus, Broccoli, Corn} tidak akan pernah menjadi 3 - itemset sering. Pembaca dapat menjadikannya sebagai latihan bahwa penerapan a t ur an ap r i o r i t e r h a d a p s e l u r u h a n g g o t a F 2 h a n ya a k a n memberikan {Asparagus, Beans, Squash} sebagai satu-satunya 3-itemset sering sehingga didapatkan: F3 = {{Asparagus, Beans, Squash}} Selanjutnya, akan diperoleh: F 4 = F5 = F6 = F7 = Jadi secara ringkas penerapan langkah besar kedua algoritme MBA akan menghasilkan himpunan itemset sering F1, F2, dan F3.

C. Langkah Besar Ketiga Algoritme MBA

Pada langkah besar ketiga ini, aturan asosiasi yang memenuhi nilai minimum support dan confidence (yang juga telah ditetapkan) dari semua itemset sering yang ada akan dibangun. Langkah terperinci dari langkah besar ini adalah sebagai berikut: 1. Pertama dari semua itemset sering s yang ada di F2, F3 dan seterusnya, daftarkan semua himpunan bagian murni yang tak kosong dari s sebutlah ss. Jadi:
a. untuk s = {Asparagus, Beans}, didapatkan ss ={Asparagus} atau ss ={Beans}, b. untuk s = {Asparagus, Squash}, didapatkan ss = {Asparagus}atau ss= {Squash}, c. untuk s = {Beans, Corn}, didapatkan ss = {Beans} atau ss {Corn}, d. untuk s = {Beans, Squash}, didapatkan ss = {Beans} atau ss = {Squash}, e. untuk s ={Beans, Tomatoes}, didapatkan ss = {Beans} atau ss = {Tomatoes}, f.

untuk s = {Broccoli, Green peppers}, didapatkan ss {Broccoli}atau ss= {Green peppers}


Diktat Matakuliah Datamining

- 66 g. untuk s = {Corn, Tomatoes}, didapatkan ss = {Corn} atau ss = {Tomatoes}, h. untuk s = {Asparagus, Beans, Squash}, didapatkan ss = {Asparagus}, atau ss =

{Beans}, atau ss = {Squash} atau ss = {Asparagus, Beans}, atau ss = {Asparagus, Squash}atau ss= {Beans, Squash}. 2. Kedua bentuk aturan asosiasi yang berpola: "Jika ss, maka (s-ss)" atau "s (s-ss)" Untuk mempermudah pilihlah aturan yang hanya berkonsekuen sebuah item saja sehingga (s-ss) hanya beranggotakan sebuah item saja. Jadi untuk masalah Toserba Favorit didapatkan calon aturan asosiasi pads Tabel 7.2. Tabel 7.2. Daftar calon aturan asosiasi
Dori Itemset Sering (Asparagus, Beans) {Asparagus, Squash) {Beans,Corn) {Beans, Squash) (Beans, Tomatoes) {Broccoli, Green peppers) (Corn, Tomatoes) (Asparagus, Beans, Squash) Dihosilkan Aturan Asosiasi Jika beli asparagus, maka beli beans Jika beli beans, maka beli asparagus Jika beli asparagus, maka beli squash Jika beli squash, maka beli asparagus Jika beli beans, maka beli turn Jika beli corn, maka beli beans Jika beli beans, maka beli squash Jika beli squash, maka beli beans Jika beli beans, maka beli tomatoes Jika beli tomatoes, maka beli beans Jika bell broccoli; maka beli greeflpepuers Jika bell green peppers, maka beli broccoli Jika beli corn, maka beli tomatoes Jika beli tomatoes, maka beli corn Jiko beli asparagus dan beans, maka beli squash Jika beli asparagusdan squash, maka beli beans Jika beli beonsdan squash, maka beli asparagus Support 5/14=35,7% 5/14=35,7% 5/14=35,7% 5/14=35,7% 5/14=35,7% 5/14=35,7% 6/14=42,9% 6/14=42,9% 4/14=28,6% 4/14=28,6% 4/14=28,6% 4/14=28,6% 4/14=28,6% 4/14=28,6% 4/14=28,6% 4/14=28,6% 4/14=28,6% Confidence 5/6=83,3% 5/10=50,0% 5/6=83,3% 5/7=71,4% 5/10=50,0% 5/8=62,5% 6/10=60,0% 6/7=85,7% 4/10=40,0% 4/6=66,7% 4/5=80,0% 4/5=80,0% 4/8=50,0% 4/6=66,7% 4/5=80,0% 4/5=80,0% 4/6=66,7%

3. Ketiga, pilih aturan asosiasi yang memenuhi nilai minimum (support) dan minimum (confidence) saja. Adapun aturan asosiasi yang memenuhi batasan min (support) = 30% dan min (confidence) = 70% tampak pads Tabel 7.3.

Diktat Matakuliah Datamining

- 67 -

Tabel 7.3. Daftar aturan asosiasi yang memenuhi syarat min (support) = 30% dan min (confidence) = 70%
Dari itemset sering {Asparagus, Beans) {Asparagus, Squash) {Beans, torn) {Beans, Squash) Dihasilkan aturan asosiasi Jika bell asparagus, maka beli beans Jika beli asparagus, maka beli squash Jika beli squash, maka beli asparagus Jika beli corn, maka beli beans Jika beli beans, maka bell squash
Jika bell squash, maka bell beans

Support 5/14=35,7 0/o 5/14=35,7% 5/14=35,7 /o 5/14=35,7 /o 6/14=42,9% 6/14=42,9%


0 0

Confidence 5/6=83,3% 5/6=83,3% 5/7=71,4% 5/8=62,5% 6/10=60,0% 6/7=85,7%

7.4. Aturan Asosiasi Pengembangan Selanjutnya

Apakah algoritme MBA merupakan satu-satunya algoritme bagi pemecahan masalah aturan asosiasi? Ternyata tidak! Para peneliti dan pakar data mining tak pernah lelah mencoba merancang algoritme baru bagi pemecahan masalah aturan asosiasi. Pembaca yang menaruh minat untuk mendalami algoritme aturan asosiasi lain dapat mempelajari algoritme berikut (Berry dan Browne, 2006): 1. algoritme Generalized Association Rules, 2. algoritme Quantitative Association Rule, dan 3. algoritme Asynchronous Parallel Mining.
Pada bab ini menguraikan beberapa hal yang terkait dengan masalah aturan asosiasi,

yaitu 1. istilah-istilah dasar pada masalah aturan asosiasi, 2. contoh prototipe masalah aturan asosiasi dan pengetahuan yang dihasilkannya beserta interpretasinya, dan 3. detail langkah-langkah yang yang dijalani oleh salah satu algoritme yang diguna-kan data mining dalam menjalankan fungsi mayor ketiganya, yaitu algoritme MBA (Market Basket Analysis). Dengan mencoba mendalami salah satu algoritme aturan asosiasi, yaitu MBA, penulis yakin bahwa kini pembaca telah memiliki dasar yang kuat untuk mempelajari algoritme lain bagi masalah ini.

Diktat Matakuliah Datamining

Anda mungkin juga menyukai