Anda di halaman 1dari 4

UAS DATA SAINS DAN ANALISIS

Nama : Syifa Fauziah


NIM : 1512618053

1. Sebuah datasets rumah terdiri atas beberapa features, seperti luas tanah, luas rumah, jumlah
kamar, dan harga. Jika data tersebut akan dikelompokkan berdasarkan harganya (mahal
atau murah), namun informasi mengenai harga belum ada, maka teknik pengelompokkan
data yang tepat adalah menggunakan klasifikasi atau clustering? Jelaskan alasannya!

Jawab : Teknik pengelompokkan data untuk datasets di atas menggunakan clustering.


Karena clustering merupakan unsupervised learning. Informasi mengenai harga belum
ada. Dapat dikatakan bahwa dataset diatas belum ada panduannya. Dengan menggunakan
clustering lah data bisa digunakan tanpa dipandu sebelumya. Ketika output nya keluar,
sudah diberi harga.

2. Perhatikan grafik berikut ini:

Grafik di atas adalah hasil visualisasi dari dataset iris yang ada pada sklearn. Feature
yang digunakan adalah sepal length. Buat program singkat untuk plotting grafik tersebut
dengan tambahan title-nya adalah: ‘Data Iris’, label untuk sumbu y adalah ‘sepal
length’.
Jawab :
import matplotlib

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

-----------------------------------

df=pd.read_csv('D:/iris.csv')

-----------------------------------

fig, ax = plt.subplots()
_=ax.plot(np.sort(df['sepal_length']),
marker='o', markersize='1', linestyle='')
_=ax.set_title('Data Iris')
_=ax.set_ylabel('sepal length')

3. Pada sklearn.datasets, selain iris terdapat datasets dengan nama breast_cancer. a. Ada
berapa features pada datasets breast_cancer tersebut?
a. Tuliskan perintahnya untuk menampilkan features tersebut!
Jawab : breast_cancer.feature_names
b. Cluster-kan data tersebut dengan Kmeans dengan jumlah cluster=2, kemudian
gambarkan grafik scatter-nya!
Jawab :
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.cluster import KMeans

#siapkan datasets
breast_cancer = load_breast_cancer()
X = breast_cancer.data

#siapkan metode
model = KMeans(n_clusters=2)

#train model
model.fit(X)

#gunakan model
pred = model.predict(X)

-----------------------------------
_ = plt.scatter(X_red[:,0], X_red[:,1], cmap='RdYlBu')

c. Reduksi jumlah features pada breast_cancer datasets tersebut menggunakan PCA


menjadi 5 (lima), kemudian cluster-kan dengan Kmeans dengan jumlah cluster=2,
dan gambarkan grafik scatter-nya!
Jawab :
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

breast_cancer = load_breast_cancer()
X = breast_cancer.data

model = PCA(n_components=5)

model.fit(X)

X_red = model.transform(X)

model = KMeans(n_clusters=2)

model.fit(X)

pred = model.predict(X)

-----------------------------------
_ = plt.scatter(X_red[:,0], X_red[:,1], cmap='RdYlBu')

d. Reduksi jumlah features pada breast_cancer datasets tersebut menggunakan PCA


menjadi 3 (tiga), kemudian cluster-kan dengan Kmeans dengan jumlah cluster=2, dan
gambarkan grafik scatter-nya!
Jawab :
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

breast_cancer = load_breast_cancer()
X = breast_cancer.data

model = PCA(n_components=3)

model.fit(X)

X_red = model.transform(X)
model = KMeans(n_clusters=2)

model.fit(X)

pred = model.predict(X)

-----------------------------------
_ = plt.scatter(X_red[:,0], X_red[:,1], cmap='RdYlBu')

e. Apakah hasil grafik pada b, c, dan d memiliki cluster yang sama atau berbeda?
Jawab : Hasil grafik sama

Anda mungkin juga menyukai