Jupy2 - File Praktikum Soshum Week 3.ipynb

Pertemuan III
Deskripsi Dataset
Konteks
Isi
Apa yang bisa kita temukan ?

Panduan Praktikum
1 # import libraries
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pandas.plotting import autocorrelation_plot
from scipy import stats
plt.style.use("ggplot")
import warnings
warnings.filterwarnings("ignore")
from scipy import stats
Instuksi 1
2 # read data as pandas data frame

url_data = "https://raw.githubusercontent.com/supasonicx/ATA-praktikum-01/main/Starbucks%20sa
data = pd.read_csv(url_data)
Instruksi 2
3 ## Melihat 5 baris awal dari dataset yang digunakan
data.head(5)
Instruksi 2
4 data.shape
4 (113, 33)
Instruksi 3
5 data.columns
5 Index(['Id', 'gender', 'age', 'status', 'income', 'visitNo', 'method',

'timeSpend', 'location', 'membershipCard', 'itemPurchaseCoffee',
'itempurchaseCold', 'itemPurchasePastries', 'itemPurchaseJuices',
'itemPurchaseSandwiches', 'itemPurchaseOthers', 'spendPurchase',
'productRate', 'priceRate', 'promoRate', 'ambianceRate', 'wifiRate',
'serviceRate', 'chooseRate', 'promoMethodApp', 'promoMethodSoc',
'promoMethodEmail', 'promoMethodDeal', 'promoMethodFriend',
'promoMethodDisplay', 'promoMethodBillboard', 'promoMethodOthers',
'loyal'],
dtype='object')
6 ### menampilkan nilai apa saja yang ada pada sebuah kolom
data['gender'].unique()
6 array([1, 0])
Instruksi 4
data['timeSpend'].unique()
7
7 array([1, 0, 4, 2, 3])
Histogram
Instruksi 5
8 ## Buatlah diagram histogram dari kolom Strength

plt.figure(figsize=(20,10))
plt.title('Histogram of timeSpend')
sns.histplot(data,x='timeSpend', kde=True);
9 ## ploting untuk data produk pastry

m = plt.hist(data[data["gender"] == 1].itemPurchasePastries,bins=30,fc = (1,0,0,0.5),label =
## ploting untuk data tumor dengan label jinak
f = plt.hist(data[data["gender"] == 0].itemPurchasePastries,bins=30,fc = (0,1,0,0.5),label =
plt.legend()
plt.xlabel("Nilai itemPurchasePastries")
plt.ylabel("Frequency")
plt.title("Histogram Pembelian produk pastry bedasarkan demografi gender")
plt.show()
Instruksi 6
10 ## ploting untuk data produk pastry

m = plt.hist(data[data["gender"] == 1].timeSpend,bins=30,fc = (1,0,0,0.5),label = "Male")
## ploting untuk data tumor dengan label jinak
f = plt.hist(data[data["gender"] == 0].timeSpend,bins=30,fc = (0,1,0,0.5),label = "Female")
plt.legend()
plt.xlabel("Nilai timeSpend")
plt.ylabel("Frequency")
plt.title("Histogram waktu yang dihabiskan di toko bedasarkan demografi gender")
plt.show()
Instruksi 7
Outliers
Instruksi 8
11 ## Menghitung nilai outliers dari variabel timeSpend pada data customer dengan gender laki-la
male = data[data["gender"] == 1]
female = data[data["gender"] == 0]
desc = male.timeSpend.describe()
Q1 = desc[4]
Q3 = desc[6]
IQR = Q3-Q1
lower_bound = Q1 - 1.5*IQR
upper_bound = Q3 + 1.5*IQR
print("Apa pun di luar kisaran ini adalah outlier timeSpend: (", lower_bound ,",", upper_boun
male[male.timeSpend < lower_bound].timeSpend
print("Outliers: ",male[(male.timeSpend < lower_bound) | (male.timeSpend > upper_bound)].time
Apa pun di luar kisaran ini adalah outlier timeSpend: ( -1.5 , 2.5 )
Outliers: [4]
Instruksi 9
12 ## Menghitung nilai outliers dari variabel visitNo (jumlah kedatangan) pada data customer den
desc = data.visitNo.describe()
Q1 = desc[4]
Q3 = desc[6]
IQR = Q3-Q1
lower_bound = Q1 - 1.5*IQR
upper_bound = Q3 + 1.5*IQR
print("Apa pun di luar kisaran ini adalah outlier visitNo: (", lower_bound ,",", upper_bound,
male[male.visitNo < lower_bound].visitNo
print("Outliers: ",male[(male.visitNo < lower_bound) | (male.visitNo > upper_bound)].visitNo.v
Apa pun di luar kisaran ini adalah outlier visitNo: ( 0.5 , 4.5 )
Outliers: []
Summary Statistics
Instruksi 11
13 ## variabel male menyimpan data yang ada pada seluruh kolom dengan nilai gender = 1
## variabel female menyimpan data yang ada pada seluruh kolom dengan nilai gender = 0
print("mean: ",male.visitNo.mean())
print("variance: ",male.visitNo.var())
print("standart deviation (std): ",male.visitNo.std())
print("describe method: ",male.visitNo.describe())
mean: 2.694915254237288
variance: 0.3535943892460549
standart deviation (std): 0.5946380321221095
describe method: count 59.000000
mean 2.694915
std 0.594638
min 1.000000
25% 3.000000
50% 3.000000
75% 3.000000
max 3.000000
Name: visitNo, dtype: float64
Effect size
Instruksi 10
14 mean_diff = male.visitNo.mean() - female.visitNo.mean()

var_male = male.visitNo.var()
var_female = female.visitNo.var()
var_pooled = (len(male)*var_male +len(female)*var_female ) / float(len(male)+ len(female))
effect_size = mean_diff/np.sqrt(var_pooled)
print("Effect size: ",effect_size)
Effect size: 0.40638112114512315
Relationship Between Variables - Korelasi
Instruksi 11
15 f,ax=plt.subplots(figsize = (11, 9))

dfs = data.loc[:,['productRate','priceRate','serviceRate','visitNo','timeSpend','wifiRate','i
sns.heatmap(dfs.corr(),annot= True,linewidths=0.5,fmt = ".1f",ax=ax)
bottom, top = ax.get_ylim()
ax.set_ylim(bottom + 0.5, top - 0.5)
plt.xticks(rotation=90)
plt.yticks(rotation=0)
plt.title('Correlation Map')
plt.savefig('graph.png')
plt.show()
Covariance
Instruksi 11
16 print("Covariance diantara timeSpend dan income: ",data.timeSpend.cov(data.income))
print("Covariance diantara timeSpend dan visitNo: ",data.timeSpend.cov(data.visitNo))
Covariance diantara timeSpend dan income: 0.20077433628318603

Covariance diantara timeSpend dan visitNo: -0.09347345132743368
Pearson Correlation
Instruksi 12
17 p1 = data.loc[:,["gender","serviceRate"]].corr(method= "pearson")
p2 = data.serviceRate.cov(data.timeSpend)/(data.serviceRate.std()*data.timeSpend.std())
print('Pearson correlation: ')
print(p1)
print('Pearson correlation: ',p2)
Pearson correlation:
gender serviceRate
gender 1.000000 0.133221
serviceRate 0.133221 1.000000
Pearson correlation: -0.08146366260564272
Spearman's Rank Correlation

Instruksi 13
18 ranked_data = data.rank()
spearman_corr = ranked_data.loc[:,["timeSpend","serviceRate"]].corr(method= "pearson")
print("Spearman's correlation: ")
print(spearman_corr)
Spearman's correlation:
timeSpend serviceRate
timeSpend 1.000000 -0.092361
serviceRate -0.092361 1.000000
Hypothesis Testing
Instruksi 14
19 statistic, p_value = stats.ttest_rel(data.gender,data.productRate)

print('p-value adalah: ',p_value)
p-value adalah: 9.83197741893934e-60

Jupy2 - File Praktikum Soshum Week 3.ipynb

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Jupy2 - File Praktikum Soshum Week 3.ipynb

Diunggah oleh

Hak Cipta:

Format Tersedia

Pertemuan III

Apa yang bisa kita temukan ?

2 # read data as pandas data frame

5 Index(['Id', 'gender', 'age', 'status', 'income', 'visitNo', 'method',

8 ## Buatlah diagram histogram dari kolom Strength

9 ## ploting untuk data produk pastry

10 ## ploting untuk data produk pastry

14 mean_diff = male.visitNo.mean() - female.visitNo.mean()

Effect size: 0.40638112114512315

Relationship Between Variables - Korelasi

15 f,ax=plt.subplots(figsize = (11, 9))

Covariance diantara timeSpend dan income: 0.20077433628318603

Spearman's Rank Correlation

19 statistic, p_value = stats.ttest_rel(data.gender,data.productRate)

p-value adalah: 9.83197741893934e-60

Anda mungkin juga menyukai