Anda di halaman 1dari 34

Pengelompokan Jenis Tanah

Menggunakan Algoritma
Clustering K-Means
Nama : Farisa Arriyani
NPM : 10104657
Pembimbing : Ibu Sulistyo Puspitodjati,
SSi., Skom., MSc.
Latar Belakang Masalah
Perkembangan pembangunan di negara Indonesia yang
meningkat dari tahun ke tahun
banyaknya proyek-proyek pembangunan jalan raya di berbagai
tempat
diperlukan pengetahuan mengenai struktur dan jenis tanah dari
wilayah yang akan dibangun.
Banyak faktor yang mempengaruhi pemilihan jenis penelitian
tanah yang diharapkan bisa memberikan data yang cukup akurat
Pengelompokkan data tanah dengan alat sondir sulit mengenali
beberapa objek tanah yang berbeda-beda tapi mempunyai sifat
serupa
terdapat objek-objek yang masuk ke dalam kelompok yang tidak
sesuai.
dibutuhkan pengetahuan mengenai jumlah kelompok yang benar
agar objek-objek tanah tersebut dapat dikelompokkan sesuai
dengan karakteristik yang dimilikinya
Pembatasan Masalah
penelitian suatu data tanah dengan
menggunakan Pengklasteran k-Means dan
pendekatan bootstrapped method
Proses pengklasteran menggunakan
perangkat lunak Weka 3.5.7.
Data yang digunakan adalah data proyek
Ruas Jalan Pontianak-Tayan.
Jumlah klaster (k) yang dipakai dimulai dari 6,
7, 8, 9, dan 10 dan jumlah seed dimulai dari 1,
10, 20, dan 30.
Tujuan Penelitian
mengelompokkan dan menemukan jumlah
klaster(kelas) yang paling tepat/ akurat terhadap
data tanah
menganalisa hasilnya untuk menentukan
parameter-parameter batasan(berdasarkan
karakteristik) pada masing-masing klaster untuk
mengklasifikasian tanah secara umum
Diharapkan penelitian ini dapat digunakan
sebagai landasan untuk tahapan pelabelan, atau
pengklasifikasian secara rinci pada
pengembangan selanjutnya
Penulisan

Bab I : Pendahuluan
Bab II : Landasan Teori
Bab III : Metode Penelitian
Bab IV : Hasil Penelitian
Bab V : Penutup
Tanah
material yang terdiri dari :
- butiran mineral padat yang tidak tersementasi (terikat secara kimia)
satu sama lain
- bahan-bahan organik yang telah melapuk (yang berpartikel padat)
disertai zat cair & gas yang mengisi ruang-ruang kosong di antara
partikel- partikel padat tersebut
untuk mendiskripsikan tanah dibutuhkan pengetahuan tentang :
- sifat-sifat asli tanah - warna
- formasi batuannya - tekstur
- ukuran butirnya - konsistensi
Secara garis besar, tanah dibagi menjadi 3 bagian :
1. Tanah berbutir kasar: kerikil (gravel), pasir (sand)
2. Tanah berbutir halus: lanau( slit/sloam ), lempung ( clay ), lempung berat (
heavy clay )
3. tanah yang bersifat organik. Contoh: tanah gambut (peat soil)
Atribut Tanah : - kedalaman (depth(d) dalam satuan meter (m)
- tekanan konus (qc) dalam satuan (kg/cm2)
- jumlah hambatan (JH) dalam satuan (kg/cm2)
- Perlawanan gesek dalam satuan (kg/cm2)
Pengklasteran (Clustering)
pengelompokkan sejumlah data atau objek ke dalam klaster
(group) sehingga dalam setiap klaster akan berisi data yang
semirip mungkin
Termasuk unsupervised learning
Data pada teknik pengklasteran tidak diketahui keluarannya
(outputnya atau labelnya)
digunakan fungsi kriteria: jumlah dari kesalahan kuadrat (sum of
squared-error, SSE) yang dapat mengukur kualitas klastering
yang dibuat k 2

SSE d p, mi
i 1 pCi

p Ci = tiap data poin pada cluster i, mi = centroid dari cluster i,


d = jarak/ distances/ variance terdekat pada masing-masing
cluster i.
mengoptimalkan nilai fungsi kriteria tersebut
Nilai SSE tergantung pada jumlah klaster dan bagaimana data
dikelompokkan ke dalam klaster-klaster. Semakin kecil nilai SSE
semakin bagus hasil klastering yang dibuat
Metode k-Means
Termasuk partitioning clustering
objek-objek dikelompokkan ke dalam k kelompok atau klaster
Untuk melakukan klastering ini, nilai k harus ditentukan terlebih
dahulu
Kluster-kluster tersebut mempunyai suatu nilai tengah / nilai
pusat yang disebut dengan centroid
menggunakan ukuran ketidakmiripan untuk mengelompokkan
objek.
Ketidakmiripan diterjemahkan dalam konsep jarak (distance (d))
Jika jarak dua objek atau data titik cukup dekat, maka dua objek
itu mirip. Semakin dekat berarti semakin tinggi kemiripannya
Tujuan dari k-Means : meminimalisir total dari jarak elemen-
elemen antar kluster (jarak antara suatu elemen dalam sebuah
kluster dengan nilai centroid kluster tersebut)
Algoritma k-Means
1. Pilih jumlah klaster k yang diinginkan
2. Inisialisasi k pusat klaster (centroid) secara random/ acak
3. Tempatkan setiap data atau objek ke klaster terdekat.
Kedekatan dua objek ditentukan berdasar jarak. Jarak yang
dipakai pada algoritma k-Means adalah Euclidean distance (d).
n
d Euclidean x, y
i i 2
x y
i 1

x = x1, x2, . . . , xn, dan y = y1, y2, . . . , yn merupakan


banyaknya n atribut(kolom) antara 2 record.
4. Hitung kembali pusat klaster dengan keanggotaan klaster yang
sekarang. Pusat klaster adalah rata-rata (mean) dari semua
data atau objek dalam klaster tertentu.
Algoritma k-Means (Lanjutan)
Misal: untuk masing-masing klaster terdapat n poin-poin data
(a1,b1,c1), (a2,b2,c2), (a3,b3,c3),. . . , (an,bn,cn), dimana a,b,c
merupakan jumlah atribut (dimensi dari data), centroid dari poin-poin
data tersebut adalah nilai mean/ titik tengahnya yaitu
mk ai n, bi n, ci n

Sebagai contoh, poin-poin data (1,1,1), (1,2,1), (1,3,1), dan (2,1,1)


memiliki centroid yaitu
1 1 1 2 1 2 3 1 1 1 1 1
mk , , 1.25,1.75,1.00
4 4 4

Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru.
Jika pusat klaster sudah tidak berubah lagi, maka proses
pengklasteran selesai. Atau, kembali lagi ke langkah nomor 3 sampai
pusat klaster tidak berubah lagi/ stabil atau tidak ada penurunan yang
signifikan dari nilai SSE (Sum of Squared Errors)
Contoh Algoritma k-Means
Tabel 1 Data point 1. Tentukan jumlah klaster k=2
Instances X Y 2. Tentukan centroid awal secara
A 1 3 acak misal dari data disamping
B 3 3 m1 =(1,1), m2=(2,1)
C 4 3 3. Tempatkan tiap objek ke
klaster terdekat berdasarkan
D 5 3
nilai centroid yang paling dekat
E 1 2 selisihnya(jaraknya). Pada
F 4 2 tabel 2.Didapatkan hasil:
G 1 1 anggota cluster1 = {A,E,G},
cluster2={B,C,D,F,H}. Nilai
H 2 1
SSE yaitu :

k 2

SSE d p, mi
i 1 pCi

Gambar 1 tampilan data awal


Contoh Algoritma k-
Means(Lanjutan)
Tabel 2
4. Menghitung nilai centroid yang
baru :
m1 1 1 1 / 3, 3 2 1 / 3 1,2
m2 3 4 5 4 2 / 5, 3 3 3 2 1 / 5 3,6;2,4

5. Tugaskan lagi setiap objek


dengan memakai pusat klaster
yang baru. Pada tabel 3. Nilai
SSE yang baru :

Gambar Clusters dan centroid


setelah tahap pertama.
Contoh Algoritma k-
Means(Lanjutan)
Tabel 3
Terdapat perubahan anggota
cluster yaitu cluster1={A,E,G,H},
cluster2={B,C,D,F}, maka cari
lagi nilai centroid yang baru yaitu
: m1=(1,25;1,75) dan
m2=(4;2,75)
Tugaskan lagi setiap objek
dengan memakai pusat klaster
yang baru. Pada tabel 4. Nilai
SSE yang baru :

Gambar Clusters dan centroid setelah tahap kedua.


Contoh Algoritma k-
Means(Lanjutan)
Tabel 4
Dapat dilihat pada tabel 4.Tidak
ada perubahan anggota lagi
pada masing-masing cluster
Hasil akhir yaitu :
cluster1={A,E,G,H}, dan
cluster2={B,C,D,F} dengan nilai
SSE = 6,25 dan jumlah iterasi 3
Metode Bootstrapped
merupakan metoda berbasis-komputer yang sering
digunakan untuk menilai ketelitian dari banyak
penaksiran statistik yang dikembangkan oleh Efron
(1979)
Salah satu pendekatan yang digunakan untuk
menentukan jumlah cluster yang paling tepat saat
menggunakan metode k-means
melakukan sampling dengan perubahan terhadap data
asli secara berulang-ulang untuk membangun
beberapa set data palsu
Untuk masing-masing data set palsu, dihitung
perkiraan yang diharapkan
Algoritma Bootstrapped
1. pilah data(sample) menjadi dua set dengan ukuran
tertentu(random), misal 80%:20%. Yang 80% sebagai data
training(untuk memodel). Sedangkan yang 20% sebagai data
validasi.
2. pemodelan menggunakan k-means terhadap data training.
Catat persentase data yang menjadi bagian masing-masing
cluster dan cluster center/ SSE dari masing-masing cluster.
3. pemodelan menggunakan k-means terhadap data validasi.
4. Bandingkan persentase data yang menjadi bagian dari masing-
masing cluster dan nilai SSE antara data training dan data
validasi.
5. Ulangi langkah 1-4 beberapa kali untuk menambah akurasi.
6. Model yang mempunyai perbedaan antara data training dan
data validasi data terkecil yang dipilih sebagai model (atau
jumlah kelompok ) yang paling tepat. perbedaan tersebut dicari
dengan nilai rata-rata perbedaan setiap pemodelan yang
dilakukan
Percobaan Menggunakan
Weka(Persiapan data/preprocess)
Menggunakan data tanah dari proyek Ruas Jalan
Pontianak-Tayan sebanyak 150 data (record) dan 8
atribut
Menghilangkan 3 atribut yang diperoleh dari hasil
perhitungan yaitu : Hambatan Pelekat (HP), Jumlah
Hambatan Pelekat (JHP), dan Hambatan Setempat
(HS)
Data mentah : 150 record dan 5 atribut
Data terdiri dari 4 atribut numerik (untuk clustering)
dan 1 atribut nominal (deskripsi tanah) untuk
pelabelan
Data disimpan dalam file .csv atau .arff
Percobaan Menggunakan Weka
(Lanjutan)

Gambar Tampilan data pada preprocess


Percobaan Menggunakan Weka
(Lanjutan)

Gambar Parameter-parameter pada filterisasi


filters.unsupervised.instance.Resample

Gambar Pilihan filterisasi filters.unsupervised.instance.Resample


Proses Clustering pada Weka
Percobaan dilakukan dengan 2 pendekatan :
1. Pendekatan Pertama : menggunakan metode bootstrapped
(membagi data menjadi data training dan data validasi dengan
jumlah atribut yang sama(5)) yaitu : 65%;35%, 70%;30%,
75%;25%, 80%;20%, 85%;15%
2. Pendekatan kedua : pengklasteran terhadap data utuh mentah
yaitu 150 record dan 4 atribut numerik serta 1 atribut nominal
Percobaan menggunakan mode use training set untuk
menentukan jumlah cluster dan classes to clusters evaluation
untuk pelabelan
jumlah klaster (k) yaitu dimulai dari 6 (berdasarkan jumlah kelas
pada data asli), kemudian 7, 8, 9, dan 10
Nilai seed yang dipilih adalah mulai dari 1, 10, 20, dan 30
Percobaan Menggunakan Weka
(Panel cluster pada Weka)
Percobaan Menggunakan Weka

Gambar Parameter-parameter
pada SimpleKMeans

Gambar Daftar algoritma pada


panel Choose

Gambar Contoh ignore attributes deskripsi tanah


Hasil Percobaan Pendekatan
Pertama
Output pada Pendekatan
Pertama (Pengklasteran
terhadap data training(65%)
dengan jumlah klaster(k=6)
dan seed 1)
Hasil Percobaan Pendekatan
Pertama (Lanjutan)
Output pada Pendekatan
Pertama (Pengklasteran
terhadap data validasi(35%)
dengan jumlah klaster(k=6)
dan seed 1)
Analisis Pendekatan Pertama
Analisis Pendekatan Pertama
(Lanjutan)
Hasil Percobaan
Pendekatan Kedua
Output pada Pendekatan
Kedua (Pengklasteran
terhadap data utuh(mentah)
dengan k=10 dan seed 1)
Analisis Pendekatan Kedua
Jarak antara anggota di dalam klaster atau WCV (Within Cluster Variation)
diasumsikan oleh nilai SSE sebesar 3.83, jumlah iterasi sebanyak 15, dan jarak
antar klaster atau BCV (Between Cluster Variation) yaitu :

29,1556 12,2 22,3333 4,7375 19,2 15,9 3,7053 24,8 26,1294 7,25332
37,4444 2,7619 5,6667 26,4375 3,7647 3,8125 12,7368 7,375 11,2353 56,13332

43,7778 4,1905 8,8333 40,6875 5,5882 5,5 18,9474 11,875 17,1765 64,73332
6,3333 1,4286 3,1667 14,25 1,8235 1,6875 6,2105 4,5 5,9412 8,62
107,10322 92,47932 133,7542 41,2752
11471,095 8552,421 17890,105 1703,601
39617,222
199,041
Analisis Pendekatan Kedua
(Lanjutan)

Gambar Visualisasi scatter plot pada


Gambar Jendela Instances Info
data tanah dengan k 10 dan seed 1
Analisis Pendekatan Kedua (Lanjutan)
Analisis Pendekatan Kedua
(Lanjutan)

Gambar Informasi terhadap data utuh(mentah) dengan k=10


dan seed 1 pada classes to clusters evaluation
Analisis Pendekatan Kedua
(Lanjutan)
Kesimpulan
perbandingan perbedaan antara data training dan data validasi
menghasilkan nilai SSE dan persentase instance terkecil berada pada
jumlah klaster/ kelompok (k=10) dan seed 1.
jumlah kelompok (k=10) diatas merupakan yang paling baik(akurat)
karena semakin kecil nilai SSE maka semakin baik pula hasil
pengklasteran yang dilakukan.
Jarak antar anggota di dalam klaster atau WCV (Within Cluster Variation)
sebesar 3.83 yang dilihat dari nilai SSE-nya
jumlah iterasi sebanyak 15
jarak antar klaster atau BCV (Between Cluster Variation) sebesar
199,041.
Pengelompokan jenis tanah didapat berdasarkan karakteristik pada
masing-masing kelompok(cluster 0 sampai 9) berdasarkan range tiap-
tiap atribut (kedalaman, tekanan konus(qc), jumlah hambatan, dan
perlawanan gesek).
Pelabelan(pemberian nama kelas) didapatkan hasil klaster 3,4,5, dan 7
tidak memiliki label. Sedangkan klaster 0 memiliki label Sand, klaster 1
slit/sloam, klaster 2 clay, klaster 6 Peat, klaster 8 Heavy Clay, dan klaster
9 Gravel yang didapatkan berdasarkan atribut nominal pada data.
Saran

menambah jumlah percobaan menjadi 10 kali


atau lebih untuk pembagian data(sample)
menambah jumlah klaster lebih dari 10 serta
penggunaan seed yang berbeda-beda agar
hasil yang didapat menjadi lebih akurat.
menggabungkan algoritma k-means dengan
algoritma lainnya seperti misalnya algoritma
genetik (GA) untuk mendapatkan hasil yang
optimal.