NIM : 2110511016
KELAS: C
2. .
#1. Load dataset
#impor library panda untuk membaca data import pandas
# membaca file dan direktori tempat iris.data.csv disimpan
direktori = "C:/Users/User/.spyder-py3/Modul Python/iris.data.csv"
# memberi nama variabel
names = ['sepal-length','sepal-width', 'petal-length','petalwidth','class']
# membaca data dengan library panda
dataset = pandas.read_csv(direktori, names=names)
#2. Ringkasan dari dataset
#mengecek jumlah baris dan kolom
print(dataset.shape)
#melihat 20 baris pertama dari dataset
print(dataset.head(20))
# melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
print(dataset.describe())
#melihat detail data berdasarkan variabel, misal jumlah baris
print(dataset.groupby('class').size())
#Viasualisasi Dataset
#UNIVARIATE PLOT untuk memahami tiap atribut/variable
#Boxplot
#import matplotlib.pyplot
dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
#plt.show()
#not callable
#Histogram
#Box and Whisker Plots untuk membuat histogram setiap input variable, untuk
mengetahui distribusi
#histograms
dataset.hist()
#plt().show()
#not callable
#MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
#Scatter Plot from pandas.plotting
import scatter_matrix
scatter_matrix(dataset)
#pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..
Berdasarkan pendeskripsian dalam syntax diatas, dapat disimpulkan bahwa penggunaan suatu
fungsi tertentu pada python terhadap suatu file csv memiliki beragam tujuan. Mulai dari head()
untuk melakukan pengecekan jumlah baris dan kolom sebanyak 20 baris utama. Kemudian
.shape untuk mengetahui kondisi jumlah dan baris keseluruhan. Sedangkan, .decribe()
digunakan untuk mengetahui penjelasan lengkap statistik data mulai dari mean atau rata-rata,
min, hingga standar devisiasi terhadap dataset tersebut. groupby(_).size() digunakan untuk
menampilkan jumlah baris size dengan pengelompokan atau filter berdasarkan isi dari groupby
tersebut. Kemudian melakukan visalisasi data dengan bentuk box dan paramter sharex dan
sharey adalah fale yang dimana setiap subplot sumbu x atau y akan saling bebas. Hasil dari
penggunaan plot dengan bentuk box tersebut adalah:
hist() digunakan untuk membuat histogram dari dataset yang ada dan bisa diberikan berbagai
parameter di dalamnya. Hasil untuk dataset yang digunakan adalah:
SOURCE CODE
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_colwidth', 1000)
#read atau load dataset
direktori = "C:/Users/Caca/Downloads/hepatitis.csv"
names = ["CLASS", "AGE" , "SEX", "STEROID", "ANTIVIRALS", "FATIGUE", "MALAISE",
"ANOREXIA", "LIVER BIG","LIVER FIRM","SPLEEN
PALPABLE","SPIDERS","ASCITES","VARICES","BILIRUBIN","ALK
PHOSPHATE","SGOT","ALBUMIN","PROTIME","HISTOLOGY"]
dataset = pd.read_csv(direktori,names = names)
df = pd.DataFrame(dataset, columns=["CLASS", "AGE" , "SEX", "STEROID", "ANTIVIRALS",
"FATIGUE", "MALAISE", "ANOREXIA", "LIVER BIG","LIVER FIRM","SPLEEN
PALPABLE","SPIDERS","ASCITES","VARICES","BILIRUBIN","ALK
PHOSPHATE","SGOT","ALBUMIN","PROTIME","HISTOLOGY"])
#deskripsi dataset
print(df.describe())
df.to_csv('hepatitis_Hasil.csv', index=False)
OUTPUT
PENDESKRIPSIAN DATASET