PENDAHULUAN
import sys
import scipy
import numpy
import matplotlib
import pandas
import sklearn
Untuk memuat dataset dapat langsung diambil dari alamat repository UCI
Machine Learning. Berikut ini adalah script untuk memuat dataset:
url = "http://archive.ics.uci.edu/ml/machine-learning-
databases/haberman/haberman.data"
names = ['age', 'year', 'axillary-nodes', 'survival-status']
dataset = pandas.read_csv(url, names=names)
Age pada script diatas merupakan data kolom usia pasien saat menjalani
operasi, year data tahun operasi pasien; axillary-nodes data jumlah simpul aksila
(kelenjar getah bening) yang terdeteksi positif; dan survival-status merupakan
data status bertahan hidup pasien yang dalam kasus ini merupakan atribut kelas.
2.1.3 Summary data set
Langkah ini merupakan langkah utama yang terdiri dari menentukan
dimensi dari data set, menampilkan isi data set, menampilkan distribusi kelas
data, menampilkan ringkasan statistik, visualisasi data menggunakan plot
univariat, dan visualisasi data menggunakan plot multivariat.
Dimensi dari dataset merupakan gambaran singkat mengenai banyaknya
jumlah baris yang menunjukkan banyaknya sampel data dan jumlah kolom yang
menunjukkan atribut data dari dataset terkait. Berikut ini adalah script untuk
menentukan dimensi dari dataset:
print(dataset.shape)
Distribusi kelas data yaitu status bertahan hidup pasien atau dalam definisi
perintah script ini, survival-status, dari Haberman's Survival data set dapat
ditampilkan dengan menggunakan perintah script seperti berikut:
print(dataset.groupby('survival-status').size())
Dan berikut adalah distribusi kelas data dari Haberman's Survival data set:
Ringkasan statistik tersebut terdiri dari count atau jumlah data; mean atau rata-
rata data; std atau standar deviasi data; min dan max atau nilai minimal dan
maksimal data; dan nilai tengah pada 25% data, 50% data, serta 75% data.
Visualisasi data dari Haberman's Survival data set menggunakan plot
univariat bisa memakai jenis plot box atau dengan histogram. Plot univariat
adalah plot dari masing-masing variabel individu. Mengingat bahwa variabel
inputnya adalah numerik, Plot box cocok dipilih untuk memvisualisasikan data.
Perintah scriptnya adalah seperti berikut:
import matplotlib.pyplot as plt
dataset.plot(kind='box', subplots=True, layout=(2,2),
sharex=False, sharey=False)
plt.show()
Perintah script tersebut akan memvisualisasikan data dalam plot box dengan
tampilan (2,2) atau berjajar 2 box per baris. Karena atribut feature dari
Haberman's Survival data set hanya terdiri dari 3 buah, maka tampilan
visualisasinya akan menjadi seperti pada gambar berikut:
Selanjutnya juga bisa membuat histogram masing-masing variabel input untuk
mendapatkan ide tentang distribusi menggunakan perintah script berikut:
dataset.hist()
plt.show()
import pandas
from pandas.plotting import scatter_matrix
scatter_matrix(dataset)
plt.show()
Setelah dijalankan perintah script tersebut akan didapatkan visualisasi data
menggunakan plot multivariat dari Haberman's Survival data set yang
menunjukkan interaksi antar variabel seperti pada gambar berikut:
BAB III
PENUTUP
3.1 Kesimpulan
Pembelajaran mesin atau machine learning adalah studi ilmiah tentang
algoritma dan model statistik yang digunakan sistem komputer untuk melakukan tugas
tertentu tanpa menggunakan instruksi eksplisit, dengan mengandalkan pola dan
inferensi sebagai gantinya. Dalam membangun suatu sistem pembelajaran mesin yang
kuat , sangat penting untuk mengenal dataset. Dataset biasanya berupa kumpulan data
yang sangat besar. Penting juga mengetahui ringkasan dari suatu dataset.
Statistik ringkasan membantu menganalisis informasi tentang data sampel. Ini
menunjukkan sesuatu tentang variabel set data kontinu (interval) dan diskrit (nominal).
Analisis variabel-variabel tersebut secara individual atau bersama-sama karena mereka
dapat membantu menemukan nilai yang tidak terduga; proporsi nilai yang hilang
dibandingkan dengan seluruh kumpulan data; kemiringan dan masalah lainnya.
Distribusi nilai fitur di berbagai fitur dapat dibandingkan, seperti halnya fitur statistik
untuk pelatihan dan pengujian data set. Ini membantu mengungkap perbedaan di antara
mereka.
Dalam praktikum ini telah dilakukan proses summarize atau meringkas suatu
dataset yaitu Haberman's Survival data set. Hasil summarize data set tersebut berupa
dimensi dataset, melihat isi dataset, melihat distribusi kelas data, melihat ringkasan
statistic, visualisasi data menggunakan plot univariat, dan visualisasi data
menggunakan plot multivariat.
DAFTAR PUSTAKA
https://en.wikipedia.org/wiki/Machine_learning
https://www.kdnuggets.com/2018/08/interpreting-data-set.html