Modul2 2110511016

NAMA : SALSABILA FAUZIAH
NIM : 2110511016
KELAS: C
Kegiatan-1: Membaca dan Mendeskripsikan Data

1.
# Load dataset
#impor library panda untuk membaca data

import pandas
# membaca file dan direktori tempat iris.data.csv disimpan

direktori = "C:/Users/Caca/.spyder-py3/iris.data"
# memberi nama variabel

names = ['sepal-length', 'sepal-width', 'petal-length', 'petalwidth', 'class']
# membaca data dengan library panda

dataset = pandas.read_csv(direktori, names=names)
Perhatikan variable eksplorer!

- Berapakah jumlah variable? = 5 variable yang diberikan nama
- Berapakah ukuran dari dataset? =
Ukuran dari data set adalah 150 rows.
2. .
#1. Load dataset
#impor library panda untuk membaca data import pandas
# membaca file dan direktori tempat iris.data.csv disimpan
direktori = "C:/Users/User/.spyder-py3/Modul Python/iris.data.csv"
# memberi nama variabel
names = ['sepal-length','sepal-width', 'petal-length','petalwidth','class']
# membaca data dengan library panda
dataset = pandas.read_csv(direktori, names=names)
#2. Ringkasan dari dataset
#mengecek jumlah baris dan kolom
print(dataset.shape)
#melihat 20 baris pertama dari dataset
print(dataset.head(20))
# melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
print(dataset.describe())
#melihat detail data berdasarkan variabel, misal jumlah baris
print(dataset.groupby('class').size())
#Viasualisasi Dataset
#UNIVARIATE PLOT untuk memahami tiap atribut/variable
#Boxplot
#import matplotlib.pyplot
dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
#plt.show()
#not callable
#Histogram
#Box and Whisker Plots untuk membuat histogram setiap input variable, untuk
mengetahui distribusi
#histograms
dataset.hist()
#plt().show()
#not callable
#MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
#Scatter Plot from pandas.plotting
import scatter_matrix
scatter_matrix(dataset)
#pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..
● Buatlah laporan mengenai deskripsi dari dataset iris di atas
Berdasarkan pendeskripsian dalam syntax diatas, dapat disimpulkan bahwa penggunaan suatu
fungsi tertentu pada python terhadap suatu file csv memiliki beragam tujuan. Mulai dari head()
untuk melakukan pengecekan jumlah baris dan kolom sebanyak 20 baris utama. Kemudian
.shape untuk mengetahui kondisi jumlah dan baris keseluruhan. Sedangkan, .decribe()
digunakan untuk mengetahui penjelasan lengkap statistik data mulai dari mean atau rata-rata,
min, hingga standar devisiasi terhadap dataset tersebut. groupby(_).size() digunakan untuk
menampilkan jumlah baris size dengan pengelompokan atau filter berdasarkan isi dari groupby
tersebut. Kemudian melakukan visalisasi data dengan bentuk box dan paramter sharex dan
sharey adalah fale yang dimana setiap subplot sumbu x atau y akan saling bebas. Hasil dari
penggunaan plot dengan bentuk box tersebut adalah:
hist() digunakan untuk membuat histogram dari dataset yang ada dan bisa diberikan berbagai
parameter di dalamnya. Hasil untuk dataset yang digunakan adalah:
Kegiatan-2: Praproses Data
● Imputasi Missing value.

Perhatikan data sebelum imputasi dan setelah imputasi, terisi dengan apakah missing
value tersebut? apakah nilai tersebut meilihat kelas yang sama atau nilai variable dari
seluruh kelas?
Jawaban:
Berdasarkan percobaan, diketahui bahwa seluruh nilai nan atau nilai yang kosong
diganti dengan nilai dari mean atau rata-rata di setiap kolomnya. Dilihat berdasarkan
mean atau rata-rata per kolomnya.
● Normalisasi Min-Max
Melakukan normalisasi dataset dan memperkecil rentang hanya antara 0 sampai 1
untuk memudahkan dalam perhitungan statistik seperti ketika distribusi tidak Gaussian
atau ketika standar deviasi sangat kecil.
● Normalisasi Z-Score (Standardize)
Melakukan normalisasi data dengan cara nilai pada attribut akan dinormalisasikan
dengan nilai mean atau rata-rata dan standar devisiasi. Hal ini memudahkan dalam
menganalisis data yang diperlukan perbandingan nilai dengan nilai mean atau rata-rata.
TUGAS
SOURCE CODE
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_colwidth', 1000)
#read atau load dataset
direktori = "C:/Users/Caca/Downloads/hepatitis.csv"
names = ["CLASS", "AGE" , "SEX", "STEROID", "ANTIVIRALS", "FATIGUE", "MALAISE",
"ANOREXIA", "LIVER BIG","LIVER FIRM","SPLEEN
PALPABLE","SPIDERS","ASCITES","VARICES","BILIRUBIN","ALK
PHOSPHATE","SGOT","ALBUMIN","PROTIME","HISTOLOGY"]
dataset = pd.read_csv(direktori,names = names)
df = pd.DataFrame(dataset, columns=["CLASS", "AGE" , "SEX", "STEROID", "ANTIVIRALS",
"FATIGUE", "MALAISE", "ANOREXIA", "LIVER BIG","LIVER FIRM","SPLEEN
PALPABLE","SPIDERS","ASCITES","VARICES","BILIRUBIN","ALK
PHOSPHATE","SGOT","ALBUMIN","PROTIME","HISTOLOGY"])
#deskripsi dataset
print(df.describe())
#impute missing value ? dengan median

#ubah nilai'?' menjadi null atau nan(0).
df.replace('?',np.nan, inplace = True)
#melakukkan impute terhadap dataset dengan nilai median

df = df.fillna(df.median())
#transform dengan metode min-max

scaler = MinMaxScaler()
scaler = scaler.fit(df)
scaler =scaler.transform(df)
np.set_printoptions(precision=3)
print(scaler[0:5,:])
df.to_csv('hepatitis_Hasil.csv', index=False)
OUTPUT
PENDESKRIPSIAN DATASET
NORMALISASI DENGAN MENGGUNAKAN MIN-MAX SCALER

(DENGAN 3 ANGKA DIBELAKANG KOMA)

Modul2 2110511016

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Modul2 2110511016

Diunggah oleh

Hak Cipta:

Format Tersedia

NAMA : SALSABILA FAUZIAH

Kegiatan-1: Membaca dan Mendeskripsikan Data

#impor library panda untuk membaca data

# membaca file dan direktori tempat iris.data.csv disimpan

# memberi nama variabel

# membaca data dengan library panda

Perhatikan variable eksplorer!

Ukuran dari data set adalah 150 rows.

● Buatlah laporan mengenai deskripsi dari dataset iris di atas

Kegiatan-2: Praproses Data

● Imputasi Missing value.

#impute missing value ? dengan median

#melakukkan impute terhadap dataset dengan nilai median

#transform dengan metode min-max

NORMALISASI DENGAN MENGGUNAKAN MIN-MAX SCALER

Anda mungkin juga menyukai