Anda di halaman 1dari 37

Data

Processing
(with python)
Hendra Hadhil Choiri

Teknik Informatika IT Analyst Data Science & Technology Data Scientist Lead Data Scientist

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Session Outline

1. Pengenalan Python
2. Pengenalan Data Frame
3. Data Sorting
4. Data Filtering
5. Data Aggregation

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Pengenalan Python

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Apa itu Python?

Python is an interpreted , high-level,


general-purpose programming language.

Mudahnya...
Python adalah bahasa pemrograman yang mudah dipahami oleh
manusia dan dapat digunakan untuk berbagai tujuan, mulai dari
analisis data, membuat website, aplikasi dll

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Pemanfaatan Python Dalam Data Science

❖ Pengolahan Data
❖ Visualisasi Data
❖ Perhitungan Statistika
❖ Pemodelan Machine Learning
❖ Model Deployment
❖ dsb...

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Jupyter Notebook

Jupyter notebook atau lab adalah


salah satu code editor yang biasa
digunakan data scientist untuk
menuliskan dan menjalankan bahasa
pemrograman python.

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Google Colab[oratory]

Bisa dibilang ini adalah alternatif dari


Jupyter Notebook di mana file
notebook kita tersimpan secara
online.
https://colab.research.google.com/

Kelebihan: Kekurangan:
● built-in-library data science yang lengkap ● harus online saat menggunakan
● tidak memakan space dalam memori komputer ● auto-restart setelah 12 jam
● data dapat diakses dan diedit dengan mudah ● butuh install ulang library lain
● mempermudah kolaborasi
● terintegrasi dengan tools Google lainnya

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Hands On Information

bit.ly/DataProcessingRakamin
Source Code:
Hands On - Data Processing.ipynb
Dataset :
rakamin_class.csv

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Getting Started
1. Copy file-nya 2. Upload file dataset (rakamin_class.csv)

pastikan sudah
tombol connected
upload

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Variabel

Mudahnya. . .

Variabel adalah suatu element nama yang memiliki nilai, dan nilai nya dapat diubah-ubah.

Contoh:

Maka tinggi badan dalam konteks ini adalah variabel yang didefinisikan memiliki nilai 173, nilai
dari 173 ini bisa berubah-ubah.
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Pengenalan Data Frame

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Apa itu Data Frame?

Data Frame adalah sebuah tabel atau 2-dimensional data


structure yang setiap kolomnya berisikan value dari satu
variabel.
index column/kolom

row/baris

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Apa itu Pandas?

Pandas adalah python library untuk meng-explore,


membersihkan hingga memproses suatu data frame

Pandas Library

Data Frame

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Membaca DataFrame dari File CSV

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Operasi Sederhana Data Frame

no function kegunaan
a .shape melihat jumlah baris dan kolom
b .columns melihat semua nama kolom
c .head(n) melihat n baris pertama
d .tail(n) melihat n baris terakhir

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Data Sorting

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Mengurutkan Data Berdasarkan Kolom
Tertentu
Data Frame diurut berdasarkan kolom nama
Use Cases
nama umur hobi

Data Frame Awal Andaru 26 Basket

Dadan 60 Memasak
nama umur hobi
Heru 17 Berkebun
Dadan 60 Memasak
Yonathan 55 Musik
Heru 17 Berkebun

Andaru 26 Basket
Format Code
Yonathan 55 Musik
df.sort_values(’<column_name>’, ascending = True )

Contoh Code
df.sort_values( ‘nama’, ascending = True )
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Ascending vs Descending

umur terurut dari kecil ke besar umur terurut dari besar ke kecil

nama umur hobi nama umur hobi

Heru 17 Berkebun Dadan 60 Memasak

Andaru 26 Basket Yonathan 55 Musik

Yonathan 55 Musik Andaru 26 Basket

Dadan 60 Memasak Heru 17 Berkebun

df.sort_values( ‘umur’, ascending = True ) df.sort_values( ‘umur’, ascending = False )


atau
df.sort_values( ‘umur’)

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Data Filtering

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Format Dasar Untuk Data Filtering

Code

df[filter]

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Filtering Kolom

Code

df[[‘<column 1>’,’<column 2>’, ...]]

nama umur hobi sepatu kota

dadan 30 memasak nike jakarta

didin 40 berkebun adidas bogor

dodon 26 basket adidas depok

df[ [‘nama’ , ‘umur’] ] : Ambil kolom nama dan umur

df[ [‘nama’,’umur’,’sepatu’] ] : Ambil kolom nama, umur


dan sepatu Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Filtering Baris
Berdasarkan Nilai Kolom Tertentu
Code

df[df[‘<column>’] == <value>]

nama umur hobi sepatu kota

dadan 30 memasak nike jakarta

didin 40 berkebun adidas bogor

dodon 26 basket adidas depok

df[ df[‘sepatu’]==’adidas’ ]
Ambil data dengan nilai kolom sepatu adalah adidas

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Operasi Perbandingan

Kegunaan Code Contoh


Sama dengan == df[‘umur’] == 10

Tidak sama dengan != df[‘umur’] != 10

Lebih dari > df[‘umur’] > 10

Lebih dari sama dengan >= df[‘umur’] >= 10

Kurang dari < df[‘umur’] < 10

Kurang dari sama dengan <= df[‘umur’] <= 10

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Filtering Baris
Berdasarkan Nilai Beberapa Kolom
Code

df[df[‘<column>’] == <value>]

filter dengan 2 kolom


df[(df[‘<column_1>’] == <value_1>) & (df[‘<column_2>’] == <value_2>)]

filter kolom pertama filter kolom kedua


Operator Deskripsi

& AND

| OR

~ NOT

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Data Aggregation

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
bit.ly/RTCDS17DaftarHadir2
Apa itu Data Aggregation?

Mengelompokan data berdasarkan kolom tertentu


dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak

Ujang 33 43 Renang

Heru 17 41 Renang

Andaru 26 41 Renang
Mengelompokan
berdasarkan Hobi
Yonathan 55 40 Musik

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang

Andaru 26 41 Renang

Yonathan 55 40 Musik

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
- Memasak = (60+15)/2
Andaru 26 41 Renang

Yonathan 55 40 Musik

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
- Memasak = (60+15)/2
Andaru 26 41 Renang

Yonathan 55 40 Musik - Renang = (33+17+26)/3

Ilham 44 44 Musik

Joshua 22 39 Musik

Petra 37 40 Musik
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
- Memasak = (60+15)/2
Andaru 26 41 Renang

Yonathan 55 40 Musik - Renang = (33+17+26)/3

Ilham 44 44 Musik - Musik = (55+44+22+37)/4


Joshua 22 39 Musik

Petra 37 40 Musik
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Apa itu Data Aggregation?

Mengelompokan data berdasarkan Kolom


tertentu dan mencari nilai statistiknya

nama umur nomor sepatu hobi

Dadan 60 40 Memasak

Firman 15 39 Memasak
● Berapa rata-rata umur tiap grup
Ujang 33 43 Renang Hobi?
Heru 17 41 Renang
● Berapa nomor sepatu terbesar tiap
Andaru 26 41 Renang grup Hobi?
Yonathan 55 40 Musik
● Ada berapa orang yang memiliki hobi
Ilham 44 44 Musik Musik?
Joshua 22 39 Musik

Petra 37 40 Musik
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Aggregation

Code

df.groupby( ’<column_name>’ ).statistik()

statistik kegunaan
.count() menghitung total baris

.nunique() menghitung total baris yang unique

.mean() rata-rata dari kolom

.median() median data dari kolom

.min() nilai terkecil dari kolom

.max() nilai maksimal dari kolom

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Aggregation Terhadap Beberapa Kolom
Code

df.groupby( [’<column_a>’,’<column_b> ‘,’<column_c>’ , . . . ] ).statistik()

nama umur gender hobi

Dadan 60 L Memasak

Firman 15 L Memasak

Indah 31 P Renang df.groupby( [’hobi’ ,’gender’ ]).mean()


Heru 17 L Renang

Andaru 26 L Renang

Yonathan 55 L Musik

Ilham 44 L Musik

Andien 22 P Musik

Jessica 37 P Musik
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Operasi Lain
(Sneak Peek)

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2
Isi daftar hadir di sini!
bit.ly/RTCDS21DaftarHadir2
Terima Kasih

Isi daftar hadir di sini!


bit.ly/RTCDS21DaftarHadir2

Anda mungkin juga menyukai