Anda di halaman 1dari 5

NAMA : SALSABILA FAUZIAH

NIM : 2110511016
KELAS: C

Kegiatan-1: Membaca dan Mendeskripsikan Data


1.
# Load dataset

#impor library panda untuk membaca data


import pandas

# membaca file dan direktori tempat iris.data.csv disimpan


direktori = "C:/Users/Caca/.spyder-py3/iris.data"

# memberi nama variabel


names = ['sepal-length', 'sepal-width', 'petal-length', 'petalwidth', 'class']

# membaca data dengan library panda


dataset = pandas.read_csv(direktori, names=names)

Perhatikan variable eksplorer!


- Berapakah jumlah variable? = 5 variable yang diberikan nama
- Berapakah ukuran dari dataset? =

Ukuran dari data set adalah 150 rows.

2. .
#1. Load dataset
#impor library panda untuk membaca data import pandas
# membaca file dan direktori tempat iris.data.csv disimpan
direktori = "C:/Users/User/.spyder-py3/Modul Python/iris.data.csv"
# memberi nama variabel
names = ['sepal-length','sepal-width', 'petal-length','petalwidth','class']
# membaca data dengan library panda
dataset = pandas.read_csv(direktori, names=names)
#2. Ringkasan dari dataset
#mengecek jumlah baris dan kolom
print(dataset.shape)
#melihat 20 baris pertama dari dataset
print(dataset.head(20))
# melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
print(dataset.describe())
#melihat detail data berdasarkan variabel, misal jumlah baris
print(dataset.groupby('class').size())

#Viasualisasi Dataset
#UNIVARIATE PLOT untuk memahami tiap atribut/variable
#Boxplot
#import matplotlib.pyplot
dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
#plt.show()
#not callable
#Histogram
#Box and Whisker Plots untuk membuat histogram setiap input variable, untuk
mengetahui distribusi
#histograms
dataset.hist()
#plt().show()
#not callable
#MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
#Scatter Plot from pandas.plotting
import scatter_matrix
scatter_matrix(dataset)
#pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..

● Buatlah laporan mengenai deskripsi dari dataset iris di atas

Berdasarkan pendeskripsian dalam syntax diatas, dapat disimpulkan bahwa penggunaan suatu
fungsi tertentu pada python terhadap suatu file csv memiliki beragam tujuan. Mulai dari head()
untuk melakukan pengecekan jumlah baris dan kolom sebanyak 20 baris utama. Kemudian
.shape untuk mengetahui kondisi jumlah dan baris keseluruhan. Sedangkan, .decribe()
digunakan untuk mengetahui penjelasan lengkap statistik data mulai dari mean atau rata-rata,
min, hingga standar devisiasi terhadap dataset tersebut. groupby(_).size() digunakan untuk
menampilkan jumlah baris size dengan pengelompokan atau filter berdasarkan isi dari groupby
tersebut. Kemudian melakukan visalisasi data dengan bentuk box dan paramter sharex dan
sharey adalah fale yang dimana setiap subplot sumbu x atau y akan saling bebas. Hasil dari
penggunaan plot dengan bentuk box tersebut adalah:
hist() digunakan untuk membuat histogram dari dataset yang ada dan bisa diberikan berbagai
parameter di dalamnya. Hasil untuk dataset yang digunakan adalah:

Kegiatan-2: Praproses Data

● Imputasi Missing value.


Perhatikan data sebelum imputasi dan setelah imputasi, terisi dengan apakah missing
value tersebut? apakah nilai tersebut meilihat kelas yang sama atau nilai variable dari
seluruh kelas?
Jawaban:
Berdasarkan percobaan, diketahui bahwa seluruh nilai nan atau nilai yang kosong
diganti dengan nilai dari mean atau rata-rata di setiap kolomnya. Dilihat berdasarkan
mean atau rata-rata per kolomnya.
● Normalisasi Min-Max
Melakukan normalisasi dataset dan memperkecil rentang hanya antara 0 sampai 1
untuk memudahkan dalam perhitungan statistik seperti ketika distribusi tidak Gaussian
atau ketika standar deviasi sangat kecil.
● Normalisasi Z-Score (Standardize)
Melakukan normalisasi data dengan cara nilai pada attribut akan dinormalisasikan
dengan nilai mean atau rata-rata dan standar devisiasi. Hal ini memudahkan dalam
menganalisis data yang diperlukan perbandingan nilai dengan nilai mean atau rata-rata.
TUGAS

SOURCE CODE
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_colwidth', 1000)
#read atau load dataset
direktori = "C:/Users/Caca/Downloads/hepatitis.csv"
names = ["CLASS", "AGE" , "SEX", "STEROID", "ANTIVIRALS", "FATIGUE", "MALAISE",
"ANOREXIA", "LIVER BIG","LIVER FIRM","SPLEEN
PALPABLE","SPIDERS","ASCITES","VARICES","BILIRUBIN","ALK
PHOSPHATE","SGOT","ALBUMIN","PROTIME","HISTOLOGY"]
dataset = pd.read_csv(direktori,names = names)
df = pd.DataFrame(dataset, columns=["CLASS", "AGE" , "SEX", "STEROID", "ANTIVIRALS",
"FATIGUE", "MALAISE", "ANOREXIA", "LIVER BIG","LIVER FIRM","SPLEEN
PALPABLE","SPIDERS","ASCITES","VARICES","BILIRUBIN","ALK
PHOSPHATE","SGOT","ALBUMIN","PROTIME","HISTOLOGY"])

#deskripsi dataset
print(df.describe())

#impute missing value ? dengan median


#ubah nilai'?' menjadi null atau nan(0).
df.replace('?',np.nan, inplace = True)

#melakukkan impute terhadap dataset dengan nilai median


df = df.fillna(df.median())

#transform dengan metode min-max


scaler = MinMaxScaler()
scaler = scaler.fit(df)
scaler =scaler.transform(df)
np.set_printoptions(precision=3)
print(scaler[0:5,:])

df.to_csv('hepatitis_Hasil.csv', index=False)
OUTPUT

PENDESKRIPSIAN DATASET

NORMALISASI DENGAN MENGGUNAKAN MIN-MAX SCALER


(DENGAN 3 ANGKA DIBELAKANG KOMA)

Anda mungkin juga menyukai