Anda di halaman 1dari 8

BAB I

PENDAHULUAN

1.1 Rumusan Masalah


1.1.1 Bagaimana summary dari Haberman's Survival data set yang ada pada repository
UCI Machine Learning?
1.2 Tujuan
1.2.1 Menjelaskan summary dari Haberman's Survival data set yang ada pada
repository UCI Machine Learning.
1.3 Dasar Teori
Pembelajaran mesin atau machine learning adalah studi ilmiah tentang
algoritma dan model statistik yang digunakan sistem komputer untuk melakukan tugas
tertentu tanpa menggunakan instruksi eksplisit, dengan mengandalkan pola dan
inferensi sebagai gantinya. Pembelajaran mesin dilihat sebagai bagian dari kecerdasan
buatan. Algoritma pembelajaran mesin membangun model matematika berdasarkan
data sampel, yang dikenal sebagai "data pelatihan", untuk membuat prediksi atau
keputusan tanpa diprogram secara eksplisit untuk melakukan tugas. Algoritma
pembelajaran mesin digunakan dalam berbagai aplikasi, seperti penyaringan email dan
visi komputer , di mana sulit atau tidak mungkin untuk mengembangkan algoritma
konvensional untuk melakukan tugas secara efektif.
Untuk membangun suatu sistem pembelajaran mesin yang kuat , sangat penting
untuk mengenal dataset, mengetahui distribusi fitur, mengidentifikasi fitur-fitur penting
dan tidak penting, menemukan tren dan hubungan antara fitur-fitur dan sebagainya.
Tidak bisa langsung masuk ke pemodelan sebelum menggali ke dalam data.
Para ilmuwan data menghabiskan banyak waktu mereka pada persiapan data
sebelum mereka terjun ke dalam pemodelan, karena memahami, menghasilkan, dan
memilih fitur yang berguna memengaruhi kinerja model. Ini membantu para ilmuwan
data untuk memeriksa asumsi yang diperlukan untuk model pemasangan. Selain
memahami set input data, penting juga untuk memahami data yang dihasilkan selama
proses pembangunan model.
BAB II
PEMBAHASAN

2.1 Summarize Haberman's Survival Data Set


Haberman's Survival data set merupakan kumpulan data dari hasil penelitian
yang dilakukan antara tahun 1958 sampai 1970 di Rumah Sakit Billings University
of Chicago tentang keberlangsungan hidup pasien yang telah menjalani operasi kanker
payudara. Data ini terdiri dari empat atribut yaitu usia pasien saat menjalani operasi;
tahun operasi pasien; jumlah simpul aksila (kelenjar getah bening) yang terdeteksi
positif; dan status bertahan hidup yang merupakan atribut kelas dan terdiri dari dua
kategori, nilai 1 menyatakan pasien selamat 5 tahun atau lebih, dan nilai 2 menyatakan
pasien meninggal dalam 5 tahun.
Langkah-langkah untuk memperoleh summary dari Haberman's Survival data
set pada praktikum ini terdiri dari dua langkah yaitu langkah persiapan, dan summary
data set.
2.1.1 Langkah persiapan
Langkah persiapan merupakan langkah awal sebelum melakukan proses
summary terhadap data set. Persiapan yang dilakukan diantaranya memuat
library dan data set yang akan dipakai.
Library yang digunakan selama proses summary data set ini terdiri dari
library sys, scipy, numpy, matplotlib, pandas, dan sklearn. Berikut merupakan
script untuk memuat library tersebut:

import sys
import scipy
import numpy
import matplotlib
import pandas
import sklearn

Untuk memuat dataset dapat langsung diambil dari alamat repository UCI
Machine Learning. Berikut ini adalah script untuk memuat dataset:
url = "http://archive.ics.uci.edu/ml/machine-learning-
databases/haberman/haberman.data"
names = ['age', 'year', 'axillary-nodes', 'survival-status']
dataset = pandas.read_csv(url, names=names)
Age pada script diatas merupakan data kolom usia pasien saat menjalani
operasi, year data tahun operasi pasien; axillary-nodes data jumlah simpul aksila
(kelenjar getah bening) yang terdeteksi positif; dan survival-status merupakan
data status bertahan hidup pasien yang dalam kasus ini merupakan atribut kelas.
2.1.3 Summary data set
Langkah ini merupakan langkah utama yang terdiri dari menentukan
dimensi dari data set, menampilkan isi data set, menampilkan distribusi kelas
data, menampilkan ringkasan statistik, visualisasi data menggunakan plot
univariat, dan visualisasi data menggunakan plot multivariat.
Dimensi dari dataset merupakan gambaran singkat mengenai banyaknya
jumlah baris yang menunjukkan banyaknya sampel data dan jumlah kolom yang
menunjukkan atribut data dari dataset terkait. Berikut ini adalah script untuk
menentukan dimensi dari dataset:
print(dataset.shape)

Setelah dijalankan akan mendapatkan dimensi dari Haberman's Survival


data set yaitu (306, 4). Angka 306 menunjukkan jumlah data, dan angka 4
menunjukkan jumlah atribut pada dataset tersebut.
Jumlah data set tersebut cukup banyak untuk ditampilkan semuanya, oleh
karena itu pada praktikum ini hanya akan menampilkan 10 data pertama dari
data set tersebut. Berikut script untuk menampilkan 10 baris data pertama:
print(dataset.head(10))

Dan berikut adalah 10 data pertama yang ditampilkan tersebut:

Distribusi kelas data yaitu status bertahan hidup pasien atau dalam definisi
perintah script ini, survival-status, dari Haberman's Survival data set dapat
ditampilkan dengan menggunakan perintah script seperti berikut:
print(dataset.groupby('survival-status').size())
Dan berikut adalah distribusi kelas data dari Haberman's Survival data set:

Untuk menampilkan ringkasan statistik dari Haberman's Survival data set


digunakan perintah script seperti berikut:
print(dataset.describe())

Setelah dijalankan script tersebut, akan didapatkan ringkasan statistik dari


Haberman's Survival data set seperti berikut:

Ringkasan statistik tersebut terdiri dari count atau jumlah data; mean atau rata-
rata data; std atau standar deviasi data; min dan max atau nilai minimal dan
maksimal data; dan nilai tengah pada 25% data, 50% data, serta 75% data.
Visualisasi data dari Haberman's Survival data set menggunakan plot
univariat bisa memakai jenis plot box atau dengan histogram. Plot univariat
adalah plot dari masing-masing variabel individu. Mengingat bahwa variabel
inputnya adalah numerik, Plot box cocok dipilih untuk memvisualisasikan data.
Perintah scriptnya adalah seperti berikut:
import matplotlib.pyplot as plt
dataset.plot(kind='box', subplots=True, layout=(2,2),
sharex=False, sharey=False)
plt.show()

Perintah script tersebut akan memvisualisasikan data dalam plot box dengan
tampilan (2,2) atau berjajar 2 box per baris. Karena atribut feature dari
Haberman's Survival data set hanya terdiri dari 3 buah, maka tampilan
visualisasinya akan menjadi seperti pada gambar berikut:
Selanjutnya juga bisa membuat histogram masing-masing variabel input untuk
mendapatkan ide tentang distribusi menggunakan perintah script berikut:
dataset.hist()
plt.show()

Setelah dijalankan perintah script tersebut akan didapatkan visualisasi


histogram dari masing-masing variabel input seperti gambar berikut:

Visualisasi data menggunakan plot multivariat digunakan untuk melihat


interaksi antar variabel. Pertama, kita lihat scatterplots dari semua pasang
atribut. Hal ini dapat membantu melihat hubungan terstruktur antara variabel
input. Untuk menampilkan visualisasi data menggunakan plot multivariat dari
Haberman's Survival data set digunakan script seperti berikut:

import pandas
from pandas.plotting import scatter_matrix
scatter_matrix(dataset)
plt.show()
Setelah dijalankan perintah script tersebut akan didapatkan visualisasi data
menggunakan plot multivariat dari Haberman's Survival data set yang
menunjukkan interaksi antar variabel seperti pada gambar berikut:
BAB III
PENUTUP

3.1 Kesimpulan
Pembelajaran mesin atau machine learning adalah studi ilmiah tentang
algoritma dan model statistik yang digunakan sistem komputer untuk melakukan tugas
tertentu tanpa menggunakan instruksi eksplisit, dengan mengandalkan pola dan
inferensi sebagai gantinya. Dalam membangun suatu sistem pembelajaran mesin yang
kuat , sangat penting untuk mengenal dataset. Dataset biasanya berupa kumpulan data
yang sangat besar. Penting juga mengetahui ringkasan dari suatu dataset.
Statistik ringkasan membantu menganalisis informasi tentang data sampel. Ini
menunjukkan sesuatu tentang variabel set data kontinu (interval) dan diskrit (nominal).
Analisis variabel-variabel tersebut secara individual atau bersama-sama karena mereka
dapat membantu menemukan nilai yang tidak terduga; proporsi nilai yang hilang
dibandingkan dengan seluruh kumpulan data; kemiringan dan masalah lainnya.
Distribusi nilai fitur di berbagai fitur dapat dibandingkan, seperti halnya fitur statistik
untuk pelatihan dan pengujian data set. Ini membantu mengungkap perbedaan di antara
mereka.
Dalam praktikum ini telah dilakukan proses summarize atau meringkas suatu

dataset yaitu Haberman's Survival data set. Hasil summarize data set tersebut berupa
dimensi dataset, melihat isi dataset, melihat distribusi kelas data, melihat ringkasan
statistic, visualisasi data menggunakan plot univariat, dan visualisasi data
menggunakan plot multivariat.
DAFTAR PUSTAKA

https://en.wikipedia.org/wiki/Machine_learning

https://www.kdnuggets.com/2018/08/interpreting-data-set.html

Anda mungkin juga menyukai