Data:
Data berikut menunjukkan rerata rapot SMA dan predikat kelulusan yang dicapai
mahasiswa S1.
Matematika Fisika Kimia Biologi Predikat
75 70 75 78 Pujian
60 70 60 60 Memuaskan
60 75 80 90 Memuaskan
80 80 78 90 Pujian
85 90 92 80 Pujian
78 85 90 80 Sangat Memuaskan
90 90 80 78 Pujian
80 90 80 90 Pujian
70 80 78 70 Sangat Memuaskan
78 60 70 75 Memuaskan
78 75 60 60 Memuaskan
60 80 60 80 Memuaskan
90 90 80 78 Pujian
90 85 85 92 Pujian
80 90 78 90 Pujian
Metode:
Bagaimana membuat model pendukung pengambilan keputusan untuk predikat kelulusan
yang akan dicapai calon mahasiswa baru menggunakan algoritma C.45!
Pembahasan:
Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma C4.5,
yaitu:
1. Mempersiapkan data training. Data training biasanya diambil dari data histori yang
pernah terjadi sebelumnya atau disebut data masa lalu dan sudah dikelompokkan
dalam kelas-kelas tertentu. Namun, ubah terlebih dahulu data numerik menjadi
nominal berdasarkan besaran yang ditetapkan.
Klasifikasi Nilai Rerata
A 80>= x >100
B 65>= x >80
C 55>= x >65
D 40>= x >55
E x <40
Berdasarkan klasifikasi nilai tabel di atas, data training dapat dilihat pada tabel berikut.
Matematika Fisika Kimia Biologi Predikat
B B B B Pujian
C B C C Memuaskan
C B A A Memuaskan
A A B A Pujian
A A A A Pujian
B A A A Sangat Memuaskan
A A A B Pujian
A A A A Pujian
B A B B Sangat Memuaskan
B C B B Memuaskan
B B C C Memuaskan
C A C A Memuaskan
A A A B Pujian
A A A A Pujian
A A B A Pujian
2. Menghitung akar dari pohon. Akar akan diambil dari atribut yang akan terpilih,
dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling
tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut,
hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus:
Keterangan:
S = Himpunan kasus
n = Jumlah partisi S
Pi = Proporsi Si terhadap S
Contoh:
Menghitung entropy Total:
((-5/15)*log2(5/15)+ (-2/15)*log2(2/15)+ (-8/15)*log2(8/15)) = 1.399581231
Lakukan juga hal yang sama pada entropy Matematika (A, B, C), Fisika (A, B, C),
Kimia (A, B, C), dan Biologi (A, B, C).
Jumlah Class
Kasus Memuaskan Sangat Pujian Entropy
(S) (S1) Memuaskan (S2) (S3)
Total 15 5 2 8 1.399581231
Matematika
A 7 0 0 7 0
B 5 2 2 1 1.521928095
Jumlah Class
Kasus Memuaskan Sangat Pujian Entropy
(S) (S1) Memuaskan (S2) (S3)
C 3 3 0 0 0
Fisika
A 10 1 2 7 1.156779649
B 4 3 0 1 0
C 1 1 0 0 0
Kimia
A 7 1 1 5 1.148834854
B 5 1 1 3 1.370950594
C 3 3 0 0 0
Biologi
A 8 2 1 5 1.298794941
B 5 1 1 3 1.370950594
C 2 2 0 0 0
Keterangan:
S = Himpunan kasus
A = Fitur
n = Jumlah partisi atribut A
|Si| = Proporsi Si terhadap S
|S| = jumlah kasus dalam S
Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
Si = jumlah sample untuk atribut i
Class
Jumlah
Kasus Sangat Entropy Gain Split Info
Memuaskan Pujian
(S) Memuaskan
(S1) (S3)
(S2)
Total 15 5 2 8 1.399581231
Matematika 0.892271866 1.5058231
A 7 0 0 7 0
B 5 2 2 1 1.521928095
C 3 3 0 0 0
Fisika 0.628394798 1.158938532
A 10 1 2 7 1.156779649
B 4 3 0 1 0
C 1 1 0 0 0
Kimia 0.406474767 1.5058231
A 7 1 1 5 1.148834854
Class
Jumlah
Kasus Sangat Entropy Gain Split Info
Memuaskan Pujian
(S) Memuaskan
(S1) (S3)
(S2)
B 5 1 1 3 1.370950594
C 3 3 0 0 0
Biologi 0.249907064 1.399581231
A 8 2 1 5 1.298794941
B 5 1 1 3 1.370950594
C 2 2 0 0 0
Dimana:
a = atribut.
gain(a) = information gain pada atribut a
Split(a) = split information pada atribut a
C 1 1 0 0 0
Kimia 0.406474767 1.5058231 0.269935271
A 7 1 1 5 1.148834854
B 5 1 1 3 1.370950594
C 3 3 0 0 0
Biologi 0.249907064 1.399581231 0.178558456
A 8 2 1 5 1.298794941
B 5 1 1 3 1.370950594
C 2 2 0 0 0
Berdasarkan tabel di atas, maka nilai Gain Ratio terbesar adalah Matematika yaitu
0.592547601. Maka, Matematika menjadi node root. Selanjutnya, cek apakah semua
entropy pada Matematika bernilai nol (0). Jika belum semua bernilai 0 maka ulangi
lagi langkah mengelompokkan nilai kedalam tabel sampai menemukan gain ratio.
Class
Jumlah
Kasus Memu Sangat Entropy Gain Split Info Gain Ratio
Pujian
(S) askan Memuas
(S3)
(S1) kan (S2)
Total 15 5 2 8 1.399581231
Matematika 0.892271866 1.5058231 0.592547601
A 7 0 0 7 0
B 5 2 2 1 1.521928095
C 3 3 0 0 0
1.15893853
Fisika
0.628394798 2 0.542215812
A 10 1 2 7 1.156779649
B 4 3 0 1 0
C 1 1 0 0 0
Kimia 0.406474767 1.5058231 0.269935271
A 7 1 1 5 1.148834854
B 5 1 1 3 1.370950594
Class
Jumlah
Kasus Memu Sangat Entropy Gain Split Info Gain Ratio
Pujian
(S) askan Memuas
(S3)
(S1) kan (S2)
C 3 3 0 0 0
1.39958123
Biologi
0.249907064 1 0.178558456
A 8 2 1 5 1.298794941
B 5 1 1 3 1.370950594
C 2 2 0 0 0
Matematika
A B C
Gain ratio Fisika memiliki nilai Gain ratio terbesar yaitu 1. Kemudian cek apakah entropy
sudah nol (0) semua. Kerena nilai entropy Fisika sudah 0 semua, maka proses telah
selesai (proses partisi pohon keputusan akan berhenti saat semua record dalam simpul N
mendapat kelas yang sama dan tidak ada atribut di dalam record yang dipartisi lagi).
Matematika
A B C
B C
A
Pujian Sangat Memuaskan Memuaskan
Setelah tree terbentuk, selanjutnya dilakukan perubahan menjadi rule. Berikut ini
merupakan pembentukan rule tree.
1. Jika nilai Matematika = A, maka lulus dengan Pujian.
2. Jika nilai Matematika = B dan nilai Fisika = B, maka lulus dengan Pujian.
3. Jika nilai Matematika = B dan nilai Fisika = A, maka lulus dengan Sangat
Memuaskan.
4. Jika nilai Matematika = B dan nilai Fisika = C, maka lulus dengan Memuaskan.
5. Jika nilai Matematika = C, maka lulus dengan Memuaskan.
Pengujian C45:
Pengujian ini bertujuan untuk menguji apakah perhitungan yang dilakukan sudah sesuai
atau belum menggunakan bantuan aplikasi Weka. Berikut adalah langkah-langkah dalam
melakukan pengujian menggunakan Weka.
2. Pada bagian Preprocess pilih Open File untuk membuka sumber data yang akan
digunakan. Dalam kasus ini sumber data yang digunakan adalah data yang berformat
CSV.
3. Pastikan data yang dipilih sudah sesuai dengan cara melihat detail dari setiap atribut.
Kemudian klik All untuk mengisi semua checkbox atribut, lalu klik tab Classify.
4. Pada halaman Classify klik tombol Choose untuk memilih algoritma yang ingin
digunakan. Pada kasus ini pilih J48.
5. Klik tombol Start untuk memulai pemrosesan data. Hasilnya dapat dilihat pada
bagian Output, seperti yang ditunjukkan pada gambar berikut.
6. Dari Output yang diperoleh pemodelan dalam bentuk percabangan (tree). Untuk
melihat detail visualnya bisa dilakukan dengan cara klik kanan pada bagian Result
List kemudian pilih Visualize Tree.
7. Berikut adalah gambaran dari Visualize Tree berdasarkan data yang diinputkan dan
diproses sebelumnya.
8. Berdasarkan gambar di atas dapat disimpulkan bahwa output yang dihasilkan Weka
sama dengan output perhitungan manual yang dilakukan sebelumnya.
Jawaban UTS Nomer 2 : Naive Bayes
Data:
Tabel berikut menunjukkan data rerata rapot SMA dan waktu studi 15 mahasiswa S1.
Matematika Fisika Kimia Biologi Waktu Lulus
90 90 80 78 Tepat Waktu
80 90 80 90 Tepat Waktu
70 80 78 70 Tepat Waktu
78 60 70 75 Tidak Tepat Waktu
78 75 60 60 Tepat Waktu
60 80 60 80 Tidak Tepat Waktu
90 90 80 78 Tidak Tepat Waktu
90 85 85 92 Tidak Tepat Waktu
80 90 78 90 Tepat Waktu
75 70 75 78 Tepat Waktu
60 70 60 60 Tidak Tepat Waktu
60 75 80 90 Tidak Tepat Waktu
80 80 78 90 Tepat Waktu
85 90 92 80 Tepat Waktu
78 85 70 80 Tidak Tepat Waktu
Rumusan Masalah:
Bagaimana membuat model pendukung pengambilan keputusan untuk waktu studi yang
akan dicapai calon mahasiswa baru menggunakan algoritma Naive Bayes?
Pembahasan:
Tahapan dari proses algoritma Naive Bayes adalah:
1. Menghitung jumlah class / label.
2. Menghitung Jumlah Kasus Per class.
3. Menentukan Data Testing.
4. Menghitung nilai peluang untuk masing-masing class.
5. Menghitung probabilitas berdasarkan kondisi pada hipotesis.
6. Membandingkan nilai hasil perkalian probabilitas dengan nilai peluang tiap class.
Sebelum memulai tahapan proses algoritma Naive Bayes, terlebih dahulu siapkan data
training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya
atau disebut data masa lalu dan sudah dikelompokkan dalam kelas-kelas tertentu. Namun,
ubah terlebih dahulu data numerik menjadi nominal berdasarkan besaran yang ditetapkan.
Klasifikasi Nilai Rerata
A 80>= x >100
B 65>= x >80
C 55>= x >65
D 40>= x >55
E x <40
Berdasarkan klasifikasi nilai tabel di atas, data training dapat dilihat pada tabel berikut.
Matematika Fisika Kimia Biologi Waktu Lulus
A A A B Tepat Waktu
A A A A Tepat Waktu
B A B B Tepat Waktu
B C B B Tidak Tepat Waktu
B B C C Tepat Waktu
C A C A Tidak Tepat Waktu
A A A B Tidak Tepat Waktu
A A A A Tidak Tepat Waktu
A A B A Tepat Waktu
B B B B Tepat Waktu
C B C C Tidak Tepat Waktu
C B A A Tidak Tepat Waktu
A A B A Tepat Waktu
A A A A Tepat Waktu
B A B A Tidak Tepat Waktu
1. Menentukan atau menghitung jumlah class, yaitu 2 (Tepat Waktu dan Tidak Tepat
Waktu).
Asumsi
Y Waktu Lulus
X1 Matematika
X2 Fisika
X3 Kimia
X4 Biologi
Data Testing
Matematika Fisika Biologi Waktu Lulus
B A B ???
6. Membandingkan nilai hasil perkalian probabilitas dengan nilai peluang tiap class.
Nilai terbesar adalah kesimpulannya. Karena 0.056 lebih dari 0.022 maka dapat
disimpulkan bahwa waktu lulus = tepat waktu.
P(X|Ci)*P(Ci)
P(X|Waktu Lulus = "Tepat Waktu") * P(Waktu Lulus = "Tepat Waktu") 0.105 * 0.533 0.056
P(X|Waktu Lulus = "Tidak Tepat Waktu") * P(Waktu Lulus = "Tidak Tepat Waktu") 0.047 * 0.467 0.022
2. Pada bagian Preprocess pilih Open File untuk membuka sumber data yang akan
digunakan. Dalam kasus ini sumber data yang digunakan adalah data yang berformat
CSV.
3. Pastikan data yang dipilih sudah sesuai dengan cara melihat detail dari setiap atribut.
Kemudian klik All untuk mengisi semua checkbox atribut, lalu klik tab Classify.
4. Pada halaman Classify klik tombol Choose untuk memilih algoritma yang ingin
digunakan. Pada kasus ini pilih Naive Bayes.
5. Klik tombol Start untuk memulai pemrosesan data. Hasilnya dapat dilihat pada
bagian Output, seperti yang ditunjukkan pada gambar berikut.
6. Dari Output yang diperoleh 10 data Correctly Classified Instances sebesar 66.6667%
dan 5 data Incorrectly Classified Instances sebesar 33.3333% dari 15 data yang diuji.
Untuk melihat detail visualnya bisa dilakukan dengan cara klik kanan pada bagian
Result List kemudian pilih Visualize Classifier Errors.
7. Untuk memastikan siapa saja yang termasuk ke dalam klasifikasi lulus tepat waktu
dan tidak tepat waktu bisa dilihat pada tampilan visualnya.
8. Klik pada setiap titik untuk melihat detailnya, seperti yang terlihat pada gambar
berikut ditunjukkan prediksi waktu lulus (hipotesis) dan kenyataan waktu lulusnya.
Pada gambar di atas terlihat detail dari prediksi Matematika: B, Fisika: A, dan Biologi: B
hasilnya adalah lulus tepat waktu dengan Prediction Margin = 0.5xxx, maka sesuai
dengan hasil perhitungan yang dilakukan sebelumnya.
Matematika Fisika Biologi Waktu Lulus
B A B Tepat Waktu
Jawaban UTS Nomer 2 : ID3
Data:
Tabel berikut menunjukkan data rerata rapot SMA dan waktu studi 15 mahasiswa S1.
Matematika Fisika Kimia Biologi Waktu Lulus
90 90 80 78 Tepat Waktu
80 90 80 90 Tepat Waktu
70 80 78 70 Tepat Waktu
78 60 70 75 Tidak Tepat Waktu
78 75 60 60 Tepat Waktu
60 80 60 80 Tidak Tepat Waktu
90 90 80 78 Tidak Tepat Waktu
90 85 85 92 Tidak Tepat Waktu
80 90 78 90 Tepat Waktu
75 70 75 78 Tepat Waktu
60 70 60 60 Tidak Tepat Waktu
60 75 80 90 Tidak Tepat Waktu
80 80 78 90 Tepat Waktu
85 90 92 80 Tepat Waktu
78 85 70 80 Tidak Tepat Waktu
Rumusan Masalah:
Bagaimana membuat model pendukung pengambilan keputusan untuk waktu studi yang
akan dicapai calon mahasiswa baru menggunakan algoritma ID3?
Pembahasan:
1. Mempersiapkan data training. Data training biasanya diambil dari data histori yang
pernah terjadi sebelumnya atau disebut data masa lalu dan sudah dikelompokkan
dalam kelas-kelas tertentu. Namun, ubah terlebih dahulu data numerik menjadi
nominal berdasarkan besaran yang ditetapkan.
Klasifikasi Nilai Rerata
A 80>= x >100
B 65>= x >80
C 55>= x >65
D 40>= x >55
E x <40
Berdasarkan klasifikasi nilai tabel di atas, data training dapat dilihat pada tabel
berikut.
Matematika Fisika Kimia Biologi Waktu Lulus
A A A B Tepat Waktu
A A A A Tepat Waktu
B A B B Tepat Waktu
B C B B Tidak Tepat Waktu
B B C C Tepat Waktu
C A C A Tidak Tepat Waktu
A A A B Tidak Tepat Waktu
A A A A Tidak Tepat Waktu
A A B A Tepat Waktu
B B B B Tepat Waktu
C B C C Tidak Tepat Waktu
C B A A Tidak Tepat Waktu
A A B A Tepat Waktu
A A A A Tepat Waktu
B A B A Tidak Tepat Waktu
7 5 2
5 3 2
3 0 3
10 6 4
4 2 2
1 0 1
6 3 3
6 4 2
3 1 2
8 4 4
5 3 2
2 1 1
3. Menghitung akar dari pohon. Akar akan diambil dari atribut yang akan terpilih,
dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling
tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut,
hitung dahulu nilai entropy. U Untuk menghitung nilai entropy digunakan rumus:
Keterangan:
S = Himpunan kasus
n = Jumlah partisi S
Pi = Proporsi Si terhadap S
Class
Jumlah Kasus (S) Entropy
Tepat Waktu (S1) Tidak Tepat Waktu (S2)
15 8 7 0.996791632
7 5 2 0.863120569
5 3 2 0.970950594
3 0 3 0
10 6 4 0.970950594
4 2 2 1
1 0 1 0
6 3 3 1
6 4 2 0.918295834
3 1 2 0.918295834
8 4 4 1
5 3 2 0.970950594
2 1 1 1
Keterangan:
S = Himpunan kasus
A = Fitur
n = Jumlah partisi atribut A
|Si| = Proporsi Si terhadap S
|S| = jumlah kasus dalam S
Class
Jumlah Information
Tepat Tidak Tepat Entropy
Kasus (S) Gain
Waktu (S1) Waktu (S2)
Total 15 8 7 0.996791632
Matematika 0.270351835
A 7 5 2 0.863120569
B 5 3 2 0.970950594
C 3 0 3 0
Fisika 0.082824569
A 10 6 4 0.970950594
B 4 2 2 1
C 1 0 1 0
Kimia 0.045814132
A 6 3 3 1
B 6 4 2 0.918295834
C 3 1 2 0.918295834
Biologi 0.006474767
A 8 4 4 1
B 5 3 2 0.970950594
C 2 1 1 1
Berdasarkan tabel di atas, maka nilai Gain terbesar adalah Matematika yaitu
0.270351835. Maka, Matematika menjadi node root dengan nilai B sebagai
cabangnya karena memiliki entropy terbesar. Selanjutnya, cek apakah semua entropy
pada Matematika bernilai nol (0). Jika belum semua bernilai 0 maka ulangi lagi
langkah mengelompokkan nilai kedalam tabel sampai menemukan gain.
Matematika
A B C
Tepat Waktu ??? Tidak Tepat Waktu
5. Mengelompokkan kembali nilai sesuai dengan node root (Matematika) yang memiliki
nilai B - Perulangan ke-2
Kimia
B 4 2 2 1
C 1 1 0 0
Biologi A 1 0 1 0
B 3 2 1 0.918295834
C 1 1 0 0
7. Mencari Nilai Information Gain - Perulangan ke-2
SUM
SUM SUM (Tidak Tepat
Node Atribut Nilai (Variabel) (Tepat Waktu) Waktu) Entropy Gain
1.1 Fisika A 2 1 1 1
Mate
matik
a B 2 2 0 0
C 1 0 1 0
0.570950594
Kimia
B 4 2 2 1
C 1 1 0 0
0.170950594
Biologi A 1 0 1 0
B 3 2 1 0.918295834
C 1 1 0 0
0.419973094
Berdasarkan tabel di atas, maka nilai Gain terbesar adalah Fisika yaitu 0.570950594.
Maka, Fisika menjadi node internal (Matematika=B) dengan nilai A sebagai
cabangnya karena memiliki entropy terbesar. Selanjutnya, cek apakah semua entropy
pada Fisika bernilai nol (0). Jika belum semua bernilai 0 maka ulangi lagi langkah
mengelompokkan nilai kedalam tabel sampai menemukan gain.
Matematika
A B C
Tepat Waktu Fisika Tidak Tepat Waktu
A B C
??? Tepat Waktu Tidak Tepat Waktu
8. Mengelompokkan kembali atribut dengan nilai Matematika=B dan Fisika=A -
Perulangan ke-3
Matematika Fisika Kimia Biologi Waktu Lulus
A A A B Tepat Waktu
A A A A Tepat Waktu
B A B B Tepat Waktu
B C B B Tidak Tepat Waktu
B B C C Tepat Waktu
C A C A Tidak Tepat Waktu
A A A B Tidak Tepat Waktu
A A A A Tidak Tepat Waktu
A A B A Tepat Waktu
B B B B Tepat Waktu
C B C C Tidak Tepat Waktu
C B A A Tidak Tepat Waktu
A A B A Tepat Waktu
A A A A Tepat Waktu
B A B A Tidak Tepat Waktu
Biologi A 1 0 1 0
B 1 1 0 0
0
Biologi A 1 0 1 0
B 1 1 0 0
Berdasarkan tabel di atas, maka nilai Gain terbesar adalah Biologi yaitu 1. Maka,
Biologi menjadi node internal. Selanjutnya, cek apakah semua entropy pada Biologi
bernilai nol (0). Jika sudah maka perulangan untuk mencari cabang pohon keputusan
sudah selesai.
Matematika
A B C
Tepat Waktu Fisika Tidak Tepat Waktu
A B C
Biologi Tepat Waktu Tidak Tepat Waktu
A
B
Tidak Tepat Waktu Tepat Waktu
Setelah tree terbentuk, selanjutnya dilakukan perubahan menjadi rule. Berikut ini
merupakan pembentukan rule tree.
1. Jika nilai Matematika = A, maka lulus "Tepat Waktu".
2. Jika nilai Matematika = B (maka cek nilai Fisika) dan nilai Fisika = A (maka cek
nilai Biologi) dan nilai Biologi = A, maka lulus "Tidak Tepat Waktu".
3. Jika nilai Matematika = B (maka cek nilai Fisika) dan nilai Fisika = A (maka cek
nilai Biologi) dan nilai Biologi = B, maka lulus "Tepat Waktu".
4. Jika nilai Matematika = B (maka cek nilai Fisika) dan nilai Fisika = B, maka lulus
"Tepat Waktu".
5. Jika nilai Matematika = B (maka cek nilai Fisika) dan nilai Fisika = C, maka lulus
"Tidak Tepat Waktu".
6. Jika nilai Matematika = C maka lulus "Tidak Tepat Waktu".
Jawaban UTS Nomer 3
Data:
Data berikut menunjukkan rerata UTS, tugas, dan UAS 15 orang mahasiswa yang
memprogramkan mata kuliah RPL.
Nama Mahasiswa Tugas UTS UAS
Wawan 70 75 78
Ahn 70 60 60
Diego 75 80 90
Nanak 80 78 90
Fajrin 90 92 80
Andhika 85 90 80
Agung 90 80 78
Fadil 90 80 90
Taufiq 80 78 70
Kevin 60 70 75
Sutanto 75 60 60
Hanis 80 60 80
Irfan 90 80 78
Nick 85 85 92
Spaso 90 78 90
Rumusan Masalah:
Bagaimana mengelompokkan mahasiswa tersebut menjadi mahasiswa kelompok pintar,
sedang, dan kurang menggunak an algoritma K-Means?
Pembahasan:
Langkah – Langkah K-Means Clustering:
1. Tentukan jumlah cluster (k) yang ingin dibentuk
2. Tetapkan k pusat cluster awal secara random
3. Alokasikan semua data/obyek ke dalam cluster terdekat
4. Tentukan kembali titik pusat cluster yang baru berdasarkan rata-rata
5. Lakukan kembali langkah 3 hingga titik pusat dari setiap cluster tidak berubah
1. Tentukan jumlah cluster (k) yang ingin dibentuk
Jumlah cluster (k) yang ingin dibentuk
C1 Pintar
C2 Sedang
C3 Kurang
Contoh:
Menghitung jarak C1 Wawan:
d(1,1) = SQRT((70-80)^2+(75-78)^2+(78-90)^2) = 15.90597372
Menghitung jarak C2 Wawan:
d(1,2) = SQRT((70-80)^2+(75-78)^2+(78-70)^2) = 13.15294644 => Jarak terdekat
Menghitung jarak C3 Wawan:
d(1,3) = SQRT((70-80)^2+(75-60)^2+(78-80)^2) = 18.13835715
Lanjutkan semua perhitungan hingga semua jarak ke C1, C2, dan C3 terpenuhi. Jika
sudah, selanjutnya carilah nilai jarak yang terkecil (terdekat) dari masing-masing
mahasiswa dan tuliskan hasilnya pada kolom Jarak Terdekat ke Cluster seperti yang
ditunjukkan pada tabel berikut.
Jarak Ke- Jarak
Nama
Tugas UTS UAS Terdekat
Mahasiswa C1 C2 C3 Ke Cluster
Wawan 70 75 78 15.90597372 13.15294644 18.13835715 C2
Ahn 70 60 60 36.3868108 22.89104628 22.36067977 C3
Diego 75 80 90 5.385164807 20.71231518 22.91287847 C1
Nanak 80 78 90 0 20 20.59126028 C1
Fajrin 90 92 80 19.89974874 19.89974874 33.52610923 C1
Andhika 85 90 80 16.40121947 16.40121947 30.41381265 C1
Agung 90 80 78 15.74801575 12.9614814 22.44994432 C1
Fadil 90 80 90 10.19803903 22.44994432 24.49489743 C1
Taufiq 80 78 70 20 0 20.59126028 C2
Kevin 60 70 75 26.2488095 22.11334439 22.91287847 C2
Sutanto 75 60 60 35.34119409 21.1896201 20.61552813 C3
Hanis 80 60 80 20.59126028 20.59126028 0 C3
Irfan 90 80 78 15.74801575 12.9614814 22.44994432 C1
Nick 85 85 92 8.831760866 23.62202362 28.17800561 C1
Spaso 90 78 90 10 22.36067977 22.89104628 C1
Contoh:
C1 = Tugas => (75+80+90+85+90+90+90+85+90) / 9 = 86.11111111
UTS => (80+78+92+90+80+80+80+85+78) / 9 = 82.55555556
UAS => (90+90+80+80+78+90+78+92+90) / 9 = 85.33333333
C2 = Tugas => (70+80+60) / 3 = 70
UTS => (75+78+70) / 3 = 74.33333333
UAS => (78+70+75) / 3 = 74.33333333
C3 = Tugas => (70+75+80) / 3 = 75
UTS => (60+60+60) / 3 = 60
UAS => (60+60+80) / 3 = 66.66666667
Setelah menemukan hasil titik pusat cluster seperti tabel di atas, maka dapat dilihat
hasilnya berbeda dengan titik pusat cluster sebelumnya (titik cluster random) dan
harus dilakukan perulangan berikutnya (mengulang proses ke-3 sampai proses ke-4).
Contoh:
Menghitung jarak C1 Wawan:
d(1,1) =SQRT((70-86.11111111)^2+(75-82.55555556)^2+(78-85.33333333)^2)
=19.24661266
Menghitung jarak C2 Wawan:
d(1,2) = SQRT((70-70)^2+(75-74.33333333)^2+(78-74.33333333)^2)
= 3.726779962 => Jarak terdekat
Menghitung jarak C3 Wawan:
d(1,3) = SQRT((70-75)^2+(75-60)^2+(78-66.66666667)^2)
= 19.45364862
Lanjutkan semua perhitungan hingga semua jarak ke C1, C2, dan C3 terpenuhi. Jika
sudah, selanjutnya carilah nilai jarak yang terkecil (terdekat) dari masing-masing
mahasiswa dan tuliskan hasilnya pada kolom Jarak Terdekat ke Cluster seperti yang
ditunjukkan pada tabel berikut.
Jarak Ke- Jarak
Nama
Tugas UTS UAS Terdekat
Mahasiswa C1 C2 C3 Ke Cluster
Wawan 70 75 78 19.24661266 3.726779962 19.45364862 C2
Ahn 70 60 60 37.55128181 20.27039439 8.333333333 C3
Diego 75 80 90 12.31931135 17.39412417 30.73181486 C1
Nanak 80 78 90 8.937367801 18.94436298 29.89054105 C1
Fajrin 90 92 80 11.5223883 27.28043662 37.77271208 C1
Andhika 85 90 80 9.22489921 22.4177509 34.31876714 C1
Jarak Ke- Jarak
Nama
Tugas UTS UAS Terdekat
Mahasiswa C1 C2 C3 Ke Cluster
Agung 90 80 78 8.685165443 21.10818693 27.4489425 C1
Fadil 90 80 90 6.590303389 26.02989734 34.19714088 C1
Taufiq 80 78 70 17.12337223 11.49879221 18.97659377 C2
Kevin 60 70 75 30.76052465 10.9188929 19.86062548 C2
Sutanto 75 60 60 35.69296365 20.87795222 6.666666667 C3
Hanis 80 60 80 23.96963099 18.37268504 14.24000624 C3
Irfan 90 80 78 8.685165443 21.10818693 27.4489425 C1
Nick 85 85 92 7.187094057 25.51252416 36.96995777 C1
Spaso 90 78 90 7.59304425 25.66883108 33.0672715 C1
Contoh:
C1 = Tugas => (75+80+90+85+90+90+90+85+90) / 9 = 86.11111111
UTS => (80+78+92+90+80+80+80+85+78) / 9 = 82.55555556
UAS => (90+90+80+80+78+90+78+92+90) / 9 = 85.33333333
C2 = Tugas => (70+80+60) / 3 = 70
UTS => (75+78+70) / 3 = 74.33333333
UAS => (78+70+75) / 3 = 74.33333333
C3 = Tugas => (70+75+80) / 3 = 75
UTS => (60+60+60) / 3 = 60
UAS => (60+60+80) / 3 = 66.66666667
Setelah menemukan hasil titik pusat cluster seperti tabel di atas, maka dapat dilihat
hasilnya sama dengan titik pusat cluster sebelumnya (titik cluster perulangan ke-1).
Karena centroid tidak mengalami perubahan (sama dengan centroid sebelumnya) maka
proses clustering selesai.
Kesimpulan:
1. Mahasiswa Pintar (Cluster ke-1) = Memiliki rerata nilai tugas sekitar 87.5, rerata nilai
UTS sekitar 82.875, dan rerata nilai UAS sekitar 84.75
2. Mahasiswa Sedang (Cluster ke-2) = Memiliki rerata nilai tugas sekitar 73, rerata nilai
UTS sekitar 72.6, dan rerata nilai UAS sekitar 78.6
3. Mahasiswa Kurang (Cluster ke-3) = Memiliki rerata nilai tugas sekitar 72.5, rerata
nilai UTS sekitar 60, dan rerata nilai UAS sekitar 60
2. Pada bagian Preprocess pilih Open File untuk membuka sumber data yang akan
digunakan. Dalam kasus ini sumber data yang digunakan adalah data yang berformat
CSV.
3. Pastikan data yang dipilih sudah sesuai dengan cara melihat detail dari setiap atribut.
Kemudian klik All untuk mengisi semua checkbox atribut, lalu klik tab Cluster.
4. Pada halaman Cluster klik tombol Choose untuk memilih algoritma yang ingin
digunakan.
5. Pada kasus ini pilih Simple K-Means.
6. Lakukan pengaturan dengan cara klik kanan pada algoritma yang dipilih kemudian
pilih Show Properties.
7. Ubah jumlah cluster menjadi 3 (Pintar, Sedang, dan Kurang). Kemudian klik OK.
8. Klik tombol Start untuk memulai pemrosesan data. Pada bagian Output terlihat
hasilnya.
9. Dari Output yang diperoleh maka diperoleh 9 mahasiswa pintar, 3 mahasiswa sedang,
dan 3 mahasiswa kurang. Untuk melihat detail visualnya bisa dilakukan dengan cara
klik kanan pada bagian Result List kemudian pilih Visualize Cluster Assignments.
10. Untuk memastikan siapa saja yang termasuk ke dalam cluster pintar, sedang, dan
cluster kurang bisa dilihat pada tampilan visualnya.
11. Klik pada setiap titik untuk melihat detailnya, seperti yang terlihat pada gambar
berikut.