Anda di halaman 1dari 2

- Membuat Scatterplot :

pakai seaborn : sns.scatterplot(x = mpg['displ'],y = mpg['cty'])

- pakai matplotlib : plt.scatter(x = mpg['displ'],y = mpg['cty'])

- One Hot encoding (day 8 ,1:45)


Membuat onehot encoding kategorikal to numeric :
pd.get_dummies(df_update['clarity'])

- Membuat onehot encoding dengan nama kolom :


pd.get_dummies(df_update['clarity'], prefix ='clarity')

- Mencari data yang unik dalam kolom : df_update['clarity'].unique()

- Membuat kolom baru dari hasil perkalian kolom lainnya


df['TotalPrice'] = df['Price'] * df['Quantity']

- Mencari missing value :


df_update = df_update[~(df_update['carat'].isnull())]

- Meng copy data : df_update = diamond.copy()

- Menemukan outlier (DAY 8, 3:04):


def check_outlier(data, column):
q1 = data[column].quantile(0.25)
q3 = data[column].quantile(0.75)
iqr = q3 - q1
return ['outlier' if (x<q1-1.5*iqr or x>q3+1.5*iqr)
else 'not-outlier' for x in data[column].values]

- Rank Encoding (Day 8, 1:54)

- Menggabungkan data frame : df.join(dataframe baru)

- Mengelompokkan data Binning/discretization


1. bins = np.linspace(min(df['tenure']), max(df['tenure']), 4)
2. buat kategori => kategori = ['Low Tenure','Medium Tenure','High Tenure']
3. df['tenure_binned'] = pd.cut(df['tenure'], bins, labels=kategori, include_lowest=True)

-grouping jumlah count padakolom (pada contoh dibawah ini,nama data nya mpg):
mpg.groupby (['manufacturer'],as_index=False).size()

-Mengurutkan data banyak sedikit, tinggi rendah :


manufacturer_count.sort_values(['size'],ascending=False)

-Menambah kolom baru hasil grouping dengan fungsi if lebih besar <>
mpg['efficiency'] = np.where(mpg['hwy']<24,'Inefficient','Efficient')

- fungsi lambda :
nama_fungsi = lambda x : 'efficient' if x>=24 else 'inefficient'
kalau mau jalankan fungsi : nama_fungsi ()
untuk mengaplikasikan nama_fungsi di setiap baris : .apply(nama_fungsi)

fungsi replace :
distance.replace('(','').replace(')','').split(',')
hasil = ('(5,5),(1,2)') menjadi ['5', '5', '1', '2']

Merubah menjadi list : print (list(diff_letters))


diff_letters = ('ABCDAAAABBCCCE') menjadi ['A', 'B', 'C', 'D', 'A', 'A', 'A', 'A', 'B', 'B', 'C', 'C', 'C', 'E']

1.mencari karakter unik


diff_letters = 'ABCDAAAABBCCCE'
list = []
for i in diff_letters:
if i not in list:
list.append(i)
hasil : ['A', 'B', 'C', 'D', 'E']

2. mencari karakter unik


print(set(diff_letters))

Anda mungkin juga menyukai