1. Sebuah datasets rumah terdiri atas beberapa features, seperti luas tanah, luas rumah, jumlah
kamar, dan harga. Jika data tersebut akan dikelompokkan berdasarkan harganya (mahal
atau murah), namun informasi mengenai harga belum ada, maka teknik pengelompokkan
data yang tepat adalah menggunakan klasifikasi atau clustering? Jelaskan alasannya!
Grafik di atas adalah hasil visualisasi dari dataset iris yang ada pada sklearn. Feature
yang digunakan adalah sepal length. Buat program singkat untuk plotting grafik tersebut
dengan tambahan title-nya adalah: ‘Data Iris’, label untuk sumbu y adalah ‘sepal
length’.
Jawab :
import matplotlib
import pandas as pd
import numpy as np
-----------------------------------
df=pd.read_csv('D:/iris.csv')
-----------------------------------
fig, ax = plt.subplots()
_=ax.plot(np.sort(df['sepal_length']),
marker='o', markersize='1', linestyle='')
_=ax.set_title('Data Iris')
_=ax.set_ylabel('sepal length')
3. Pada sklearn.datasets, selain iris terdapat datasets dengan nama breast_cancer. a. Ada
berapa features pada datasets breast_cancer tersebut?
a. Tuliskan perintahnya untuk menampilkan features tersebut!
Jawab : breast_cancer.feature_names
b. Cluster-kan data tersebut dengan Kmeans dengan jumlah cluster=2, kemudian
gambarkan grafik scatter-nya!
Jawab :
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.cluster import KMeans
#siapkan datasets
breast_cancer = load_breast_cancer()
X = breast_cancer.data
#siapkan metode
model = KMeans(n_clusters=2)
#train model
model.fit(X)
#gunakan model
pred = model.predict(X)
-----------------------------------
_ = plt.scatter(X_red[:,0], X_red[:,1], cmap='RdYlBu')
breast_cancer = load_breast_cancer()
X = breast_cancer.data
model = PCA(n_components=5)
model.fit(X)
X_red = model.transform(X)
model = KMeans(n_clusters=2)
model.fit(X)
pred = model.predict(X)
-----------------------------------
_ = plt.scatter(X_red[:,0], X_red[:,1], cmap='RdYlBu')
breast_cancer = load_breast_cancer()
X = breast_cancer.data
model = PCA(n_components=3)
model.fit(X)
X_red = model.transform(X)
model = KMeans(n_clusters=2)
model.fit(X)
pred = model.predict(X)
-----------------------------------
_ = plt.scatter(X_red[:,0], X_red[:,1], cmap='RdYlBu')
e. Apakah hasil grafik pada b, c, dan d memiliki cluster yang sama atau berbeda?
Jawab : Hasil grafik sama