Anda di halaman 1dari 11

TUGAS INDIVIDU

KECERDASAN BUATAN
“K-Means Clustering”

Dosen :
Bakhtiyar Hadi Prakoso, S.Kom, M.Kom
Nama :
Dewi Candra Agustin
NIM / Golongan – No. Absen :
G41181346/B-53

GOLONGAN B
SEMESTER 7

PROGRAM STUDI MANAJEMEN INFORMASI KESEHATAN


JURUSAN KESEHATAN
POLITEKNIK NEGERI JEMBER
2021
Klusterisasi Data Fasilitas Kesehatan di Kabupaten Jember pada Tahun
2019 dengan Menggunakan Analisis K-Means Clustering

1. Melakukan save as pada file excel yang sudah disiapkan sebelumnya. Hal tersebut
bertujuan untuk menyimpan file dalam bentuk .csv. Beri nama file, dan simpan dalam
bentuk csv. Lalu klik “Save”

2. File sudah berhasil di save as

3. Membuka laman https://colab.research.google.com, lalu klik “New Notebook”

Guna menambahkan fle .csv dapat menggunakan source code seperti pada gambar
dibawah ini
from google.colab import files upload =
files.upload()

Mengetikan sourcode seperti gambar dibawah untuk menambahkan file .csv yang
sudah disiapkan sebelumnya, dan kemudian run cell. Maka akan muncul tampilan
sebagai berikut.

4. Pilih file yang akan diupload

5. File yang berhasil diinputkan, akan tampil seperti pada gambar berikut ini,
Kemudian Menekan “+code” untuk menambakan code baru

Jika ingin menampilkan data, bisa memasukkan source code seperti yang ada pada
gambar berikut, sehingga data yang ada didalam file bisa ditampilkan.
6. import pandas as pd
df = pd.read_csv('Data Faskes Jember
2019.csv') df

7. Melakukan perintah describe pada kecamatan, dengan menggunakan source code


dibawah ini
df['Kecamatan']
8. Melakukan perintah describe pada Rumah sakit, dengan menggunakan source coe
dibawah ini
df['Rumah Sakit (RS)']

Jika ingin select 3 baris dengan memanfaatka methode indeks location. Kode [0: 3, :) ini
menunjukkan bahwa 3 baris utama dan diambil semua kolom, titik dua menujukkan megambil
seluruh data dari tabel tersebut.

Jika ingin select 10 baris dengan memanfaatka methode indeks location. Kode [0: 10, 1)
menunjukkan bahwa data akan diambil mulai dari baris ke-1 sampai baris 10 dan diambil
dimulai dari kolom pertama, titik dua menujukkan megambil seluruh data dari tabel
tersebut
df.iloc[0:10,1:]

Jika ingin select 5 data dari data tersebut dapat menggunakan source code
dibawah ini
df.iloc[0:5,0:4] 0:5 artinya mengambl 5 baris utama data dan 0:4 artinya
mengambil 4 kolom yang ada pada data tersebut

Untuk melihat data rumah sakait, puskesmas, dan postu bisa mengunakan source
code describe untuk melihat deskripsi statistik umum, seperti mean, kuartil,
standar devisiasi, dll.
df.iloc[:,1:4].describe()
Setelah melihat proses deskripsi statistik, bisa langsung menghitung K-Means. K-
Means bisa dilihat menggunakan source code

from sklearn.decomposition import PCA

reduce_data = PCA(n_components=2).fit_transform(df.iloc[:,1:4])
reduce_data

sklearn merupakan sebuah library yang memiliki package decomposition untuk


mengimport PCA yaitu komponen analisis, selanjutnya membuat sebuah variabel
reduce_data. Hasilnya akan berbentuk array
kemudian hasilnya akan dimasukkan ke data frame pca dan disimpan dalam
variabel tersebut. Data akan disimpan dalam colom pca1 dan pc2. Hasilnya seperti
dibawah ini.

Langkah selanjutnya yaitu memanggil sklearn cluster import kmeans.


from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

wcss =[]
for i in range(1,5):
kmeans =KMeans(n_clusters=i)
kmeans.fit(df.iloc[:,1:4])
wcss.append(kmeans.inertia_)

plt.plot(range(1,5),wcss)
plt.title("Elbow Method")
plt.xlabel("Cluster Number")
plt.ylabel("wcss") plt.show()
import matplotlib.pyplot as plt digunakan unntuk menggambarkan
dalam bentuk grafik

Untuk membuat kluster 2 maka km diganti dengan 2


from sklearn.cluster import KMeans
km = KMeans(n_clusters=2)

y_km = km.fit_predict(df.iloc[:,1:4])
y_km

from sklearn.cluster import KMeans


km = KMeans(n_clusters=2)
y_km = km.fit_predict(pca)
pd.DataFrame(y_km)

Jika ingin menggambarkan dalam bentuk scatter

pca = pca.values

plt.scatter (pca[y_km == 0,0], pca[y_km == 0,0], s = 10, c = 'b


lue', label = 'Cluster 1')

plt.scatter(pca[y_km == 1, 0], pca[y_km == 1, 1], s = 10, c = '


red', label = 'Cluster 2')

plt.scatter(km.cluster_centers_[:, 0], km.cluster_centers_[:, 1


], s = 100, c = 'yellow', label = 'Centroids')
plt.title('Klusterisasi Faskes berdasarkan kecamatan di Kab Jem
ber Tahun 2019')

plt.xlabel('PCA 2')
plt.ylabel('PCA 1')
plt.legend()
Kesimpulan :
Dari hasi kluster diatas warna biru adalah jumlah cluster yang bernilai 0 dan
berdekatan, sementara yang bernilai 1 letaknya menyebar dengan warna merah.
Apabila di plot bisa dilihat jumlah cluster paling optimal adalah 2 kluster.

Anda mungkin juga menyukai