KECERDASAN BUATAN
“K-Means Clustering”
Dosen :
Bakhtiyar Hadi Prakoso, S.Kom, M.Kom
Nama :
Dewi Candra Agustin
NIM / Golongan – No. Absen :
G41181346/B-53
GOLONGAN B
SEMESTER 7
1. Melakukan save as pada file excel yang sudah disiapkan sebelumnya. Hal tersebut
bertujuan untuk menyimpan file dalam bentuk .csv. Beri nama file, dan simpan dalam
bentuk csv. Lalu klik “Save”
Guna menambahkan fle .csv dapat menggunakan source code seperti pada gambar
dibawah ini
from google.colab import files upload =
files.upload()
Mengetikan sourcode seperti gambar dibawah untuk menambahkan file .csv yang
sudah disiapkan sebelumnya, dan kemudian run cell. Maka akan muncul tampilan
sebagai berikut.
5. File yang berhasil diinputkan, akan tampil seperti pada gambar berikut ini,
Kemudian Menekan “+code” untuk menambakan code baru
Jika ingin menampilkan data, bisa memasukkan source code seperti yang ada pada
gambar berikut, sehingga data yang ada didalam file bisa ditampilkan.
6. import pandas as pd
df = pd.read_csv('Data Faskes Jember
2019.csv') df
Jika ingin select 3 baris dengan memanfaatka methode indeks location. Kode [0: 3, :) ini
menunjukkan bahwa 3 baris utama dan diambil semua kolom, titik dua menujukkan megambil
seluruh data dari tabel tersebut.
Jika ingin select 10 baris dengan memanfaatka methode indeks location. Kode [0: 10, 1)
menunjukkan bahwa data akan diambil mulai dari baris ke-1 sampai baris 10 dan diambil
dimulai dari kolom pertama, titik dua menujukkan megambil seluruh data dari tabel
tersebut
df.iloc[0:10,1:]
Jika ingin select 5 data dari data tersebut dapat menggunakan source code
dibawah ini
df.iloc[0:5,0:4] 0:5 artinya mengambl 5 baris utama data dan 0:4 artinya
mengambil 4 kolom yang ada pada data tersebut
Untuk melihat data rumah sakait, puskesmas, dan postu bisa mengunakan source
code describe untuk melihat deskripsi statistik umum, seperti mean, kuartil,
standar devisiasi, dll.
df.iloc[:,1:4].describe()
Setelah melihat proses deskripsi statistik, bisa langsung menghitung K-Means. K-
Means bisa dilihat menggunakan source code
reduce_data = PCA(n_components=2).fit_transform(df.iloc[:,1:4])
reduce_data
wcss =[]
for i in range(1,5):
kmeans =KMeans(n_clusters=i)
kmeans.fit(df.iloc[:,1:4])
wcss.append(kmeans.inertia_)
plt.plot(range(1,5),wcss)
plt.title("Elbow Method")
plt.xlabel("Cluster Number")
plt.ylabel("wcss") plt.show()
import matplotlib.pyplot as plt digunakan unntuk menggambarkan
dalam bentuk grafik
y_km = km.fit_predict(df.iloc[:,1:4])
y_km
pca = pca.values
plt.xlabel('PCA 2')
plt.ylabel('PCA 1')
plt.legend()
Kesimpulan :
Dari hasi kluster diatas warna biru adalah jumlah cluster yang bernilai 0 dan
berdekatan, sementara yang bernilai 1 letaknya menyebar dengan warna merah.
Apabila di plot bisa dilihat jumlah cluster paling optimal adalah 2 kluster.