WEBINAR I Hermawan US
Pengenalan Python dan Data Science revisi 0.1
python
Pengenalan Python Data cience
www.imageintellegence.com
1 Mengapa dipilih python sebagai tools pengolahan data
Python telah menjadi pilihan utama dalam pengolahan data dan analisis data karena sejumlah alasan
yang menjadikannya bahasa yang sangat populer di dunia ilmu data. Berikut beberapa alasan
mengapa Python dipilih sebagai tools pengolahan data:
Python memiliki sintaksis yang mudah dibaca dan dipahami, membuatnya menjadi pilihan yang baik
untuk para ilmuwan data yang mungkin memiliki latar belakang dalam berbagai disiplin ilmu.
Python memiliki komunitas yang besar dan aktif. Ada banyak pakar dan pengembang di seluruh dunia
yang berkontribusi pada proyek-proyek open source di bidang ilmu data, seperti NumPy, pandas,
scikit-learn, dan banyak lagi.
Python memiliki banyak pustaka dan alat yang dibangun khusus untuk ilmu data, seperti NumPy untuk
komputasi numerik, pandas untuk analisis data, Matplotlib dan Seaborn untuk visualisasi, scikit-learn
untuk pembelajaran mesin, dan lainnya. Ini membuatnya mudah untuk melakukan berbagai tugas
dalam satu lingkungan.
Python memiliki ekosistem yang kaya dan mendukung berbagai kebutuhan dalam ilmu data, termasuk
pemrosesan data besar, analisis statistik, visualisasi data, pembelajaran mesin, dan sebagainya.
Python adalah bahasa yang sangat fleksibel dan dapat digunakan dalam berbagai konteks. Selain itu,
Python dapat diintegrasikan dengan bahasa pemrograman lain, dan banyak perpustakaan ilmu data
dapat diakses melalui antarmuka Python.
Python dapat digunakan untuk pengembangan web, dan banyak framework web seperti Django dan
Flask memudahkan integrasi antara analisis data dan tampilan web.
Dukungan Industri:
Banyak perusahaan dan organisasi besar menggunakan Python untuk analisis data dan ilmu data
secara umum. Oleh karena itu, pengguna Python dapat menemukan dukungan dan sumber daya
yang luas di industri.
1
Python menjadi bahasa yang sangat populer dalam pengembangan model pembelajaran mesin.
Framework seperti TensorFlow dan PyTorch yang mendukung pembelajaran mesin dapat dengan
mudah diintegrasikan dengan Python.
Kombinasi dari faktor-faktor di atas membuat Python menjadi alat yang kuat dan populer dalam
pengolahan data dan analisis data.
1. Pemahaman Masalah:
Identifikasi dan pemahaman masalah atau pertanyaan yang ingin dipecahkan dengan
menggunakan ilmu data. Diskusi dengan pemangku kepentingan dan pemahaman
mendalam tentang konteks bisnis sangat penting pada tahap ini.
2. Pemahaman Data:
Proses membersihkan dan merapikan data dari kesalahan, nilai yang hilang, atau anomali.
Pembersihan data adalah tahap yang kritis untuk memastikan bahwa data yang digunakan
dalam analisis bersih dan akurat.
Melakukan analisis eksploratif terhadap data untuk mendapatkan wawasan awal. Ini
melibatkan penggunaan teknik statistik dan visualisasi data untuk memahami pola, tren, dan
karakteristik data.
5. Pemodelan Data:
2
6. Evaluasi Model:
Mengukur kinerja model yang telah dikembangkan menggunakan metrik yang relevan.
Evaluasi model membantu menentukan seberapa baik model bekerja dalam menangani
masalah atau pertanyaan yang diberikan.
7. Implementasi Solusi:
Berdasarkan hasil evaluasi dan umpan balik, mungkin perlu mengulang siklus hidup untuk
meningkatkan model atau menangani masalah baru yang muncul.
3 Apa saja Library python yang digunakan dalam Data Science Live
Cycle
Python memiliki sejumlah besar perpustakaan (libraries) yang sangat berguna dalam
setiap tahap siklus hidup ilmu data. Berikut adalah beberapa perpustakaan Python yang
umumnya digunakan dalam masing-masing tahap siklus hidup ilmu data:
2. Pembersihan Data:
3
3. Eksplorasi Data:
4. Pemodelan Data:
5. Evaluasi Model:
`Implementasi Solusi:
Apache Airflow: Untuk mengelola alur kerja (workflow) dan penjadwalan tugas.
MLflow: Untuk melacak dan mengelola eksperimen dan model machine learning.
7. Iterasi:
Perlu diingat bahwa banyak perpustakaan ini bekerja bersama dan sering digunakan
bersamaan dalam proyek ilmu data. Pemilihan perpustakaan tergantung pada kebutuhan dan
preferensi individu, serta karakteristik khusus dari proyek yang sedang dijalankan.
4
4 Introduction to google Colab
I. PENDAHULUAN
Google Colab (Collaboratory) adalah platform komputasi yang disediakan oleh Google secara
gratis. Colab memungkinkan pengguna untuk menulis dan mengeksekusi kode Python di
lingkungan cloud tanpa memerlukan instalasi perangkat lunak di lokal. Platform ini
menyediakan akses ke GPU dan TPU secara gratis, memungkinkan eksekusi cepat dari kode
yang membutuhkan daya komputasi tinggi.
b. Fitur Utama
Colab memberikan akses ke unit pemrosesan grafis (GPU) dan unit pemrosesan tensor (TPU)
Google secara gratis, mempercepat eksekusi kode untuk tugas-tugas seperti pelatihan model
machine learning.
Colab memungkinkan pengguna untuk berbagi notebook secara langsung dan berkolaborasi
secara real-time, mirip dengan Google Docs.
Notebook Colab dapat disimpan langsung di Google Drive, memudahkan penyimpanan dan
akses proyek.
Colab mendukung sejumlah besar perpustakaan Python populer dan menyertakan beberapa
pustaka bawaan seperti NumPy, Pandas, dan Matplotlib.
Notebook Interaktif:
Colab menggunakan format notebook interaktif yang memungkinkan penyisipan teks, kode,
dan hasil dalam satu dokumen yang dapat dijalankan secara bertahap.
5
II. MEMULAI GOOGLE COLAB (Praktik)
b. Lingkungan Colab
1. Cell:
Notebook terdiri dari sel-sel yang dapat berisi teks atau kode Python.
Sel dapat dijalankan satu per satu atau secara keseluruhan.
Pilih "Runtime" > "Change runtime type" untuk mengonfigurasi runtime dan
memilih jenis akselerator perangkat keras seperti GPU atau TPU.
1. Menulis Kode:
2. Mengimpor Library:
3. Visualisasi Data:
Gunakan Matplotlib atau library visualisasi lainnya untuk membuat grafik dan
diagram.
6
III. Dukungan untuk Machine Learning
2. Contoh Notebook:
V. Kesempulan
Buka Browser:
7
Pastikan Anda sudah masuk dengan akun Google. Jika belum, klik tombol "Sign in" dan
masukkan informasi akun Google Anda.
Setelah masuk, Anda akan diarahkan ke dashboard Colab. Klik pada opsi "New
Notebook" untuk membuat notebook baru.
3. Nama Notebook:
Berikan nama untuk notebook Anda. Klik pada judul notebook (yang defaultnya
"Untitled") untuk mengganti namanya.
Setelah membuka notebook, Anda dapat memulai menulis kode Python pada sel kode.
Anda dapat menambahkan sel baru dengan menggunakan tombol "+" di toolbar atau
dengan menggunakan pintasan keyboard Ctrl + M dan kemudian B untuk
menambahkan di bawah sel aktif.
5. Menjalankan Kode:
Untuk mengeksekusi sel kode, klik pada sel tersebut dan tekan Shift + Enter. Ini akan
menjalankan kode dan menampilkan hasilnya di bawah sel.
6. Menyimpan Notebook:
Untuk menyimpan notebook, Anda dapat menggunakan opsi "File" > "Save" atau
menggunakan pintasan Ctrl + S. Colab secara otomatis menyimpan perubahan secara
berkala.
Jika Anda ingin menyimpan notebook di Google Drive, Anda dapat memilih opsi "File"
> "Save a copy in Drive". Ini memindahkan notebook ke Google Drive dan
memungkinkan Anda mengaksesnya dari perangkat lain.
Jika proyek Anda memerlukan akselerasi perangkat keras seperti GPU atau TPU, Anda
dapat mengonfigurasinya melalui "Runtime" > "Change runtime type". Pilih jenis
akselerator yang diinginkan dan simpan perubahan.
8
Dengan langkah-langkah di atas, Anda sudah dapat memulai menggunakan Google
Colab untuk menulis dan mengeksekusi kode Python dalam lingkungan cloud.
Platform ini sangat berguna untuk eksperimen dengan proyek ilmu data dan machine
learning tanpa memerlukan konfigurasi perangkat keras lokal.
# Import perpustakaan
import pandas as pd
import matplotlib.pyplot as plt
# Membuat DataFrame
data = {'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Emma'],
'Usia': [25, 30, 35, 40, 28],
'Pendapatan': [50000, 60000, 75000, 80000, 55000]}
df = pd.DataFrame(data)
# Menampilkan DataFrame
print("DataFrame:")
print(df)
# Membuat Grafik
plt.figure(figsize=(8, 5))
# Grafik Scatterplot
plt.scatter(df['Usia'], df['Pendapatan'], color='blue', marker='o')
plt.title('Scatterplot Usia vs Pendapatan')
plt.xlabel('Usia')
plt.ylabel('Pendapatan')
# Menampilkan Grafik
plt.show()
9
5 Install Python Anaconda
Untuk Windows:
Download Anaconda:
https://www.anaconda.com/products/distribution.
Klik pada versi Anaconda yang sesuai dengan sistem operasi Windows.
Jalankan Installer:
di command Prompt
Selesai Instalasi:
Setelah instalasi selesai, Anda dapat mengecek apakah Anaconda berhasil diinstal dengan
membuka Anaconda Command Prompt dan mengetik perintah:
Copy code
conda –version
phython -V
10
6 Setting Environtment dan Integrai python dengan Jupyter
Anda dapat membuat environment baru dengan menggunakan perintah conda create.
Gantilah nama_env dengan nama environment yang Anda inginkan.
2. Mengaktifkan Environment:
11
5. Membuat Environment dari File:
Anda dapat membuat environment baru berdasarkan file konfigurasi yang telah
disimpan sebelumnya.
conda env create -f nama_env.yml
6. Melihat Daftar Environment:
Anda dapat melihat daftar environment yang telah dibuat.
conda env list
7. Menampilkan Informasi Environment Aktif:
Untuk menampilkan informasi mengenai environment yang sedang aktif.
conda info --envs
8. Menghapus Environment:
12
7 Install Jupyter Notebook
Untuk menginstal Jupyter Notebook di dalam environment yang aktif menggunakan Conda,
Anda dapat mengikuti langkah-langkah berikut
atau
Aktifkan environment yang ingin Anda tambahkan ke Jupyter Notebook, kemudian jalankan
perintah berikut untuk menambahkan kernel environment ke Jupyter:
jupyter notebook
13
Pilih Kernel Environment pada Notebook:
Setelah membuka Jupyter Notebook di browser, buat atau buka notebook yang ingin Anda
gunakan. Pada bagian atas, di sebelah kanan, Anda dapat memilih kernel environment dengan
menggunakan dropdown di toolbar. Pilih kernel yang sesuai dengan environment yang telah
Anda tambahkan sebelumnya.
Dalam Python, aturan penulisan variabel melibatkan penggunaan huruf, angka, dan garis bawah
(_). Berikut adalah beberapa aturan dan contoh penulisan variabel yang benar:
Nama variabel dapat dimulai dengan huruf (a-z, A-Z) atau garis bawah (_).
nama = "John"
usia = 25
gaji_rata_rata = 50000.0
hasil_pertama = 10
_nama_rahasia = "rahasia"
14
nama depan = "Alice" # tidak boleh menggunakan spasi
Dalam praktiknya, disarankan untuk menggunakan gaya penulisan snake_case untuk nama
variabel. Ini berarti huruf kecil semua dan menggunakan garis bawah untuk memisahkan kata-kata,
seperti nama_variabel atau gaji_rata_rata. Gaya ini umum digunakan dalam komunitas Python dan
memudahkan pembacaan dan pemahaman kode.
Python memiliki beberapa tipe data dasar yang sering digunakan. Berikut adalah
beberapa tipe data dasar beserta contoh code untuk masing-masing:
1. Integer (int):
angka_desimal = 3.14
3. String (str):
4. Boolean (bool):
Representasi nilai kebenaran, yaitu True atau False.
benar = True
salah = False
5. List:
daftar_angka = [1, 2, 3, 4, 5]
15
6. Tuple:
python
7. Set:
himpunan_angka = {1, 2, 3, 4, 5}
8. Dictionary:
9. NoneType:
nilai_tidak_ada = None
Contoh-contoh di atas adalah penggunaan dasar tipe data dalam Python. Perlu
diingat bahwa Python bersifat dinamis, sehingga tipe data suatu variabel dapat
berubah selama program berjalan.
16
Conditional
if kondisi:
# Blok kode dijalankan jika kondisi benar (True)
pernyataan_1
pernyataan_2
# ...
elif kondisi_lain:
# Blok kode dijalankan jika kondisi pertama salah (False)
# dan kondisi lainnya benar (True)
pernyataan_a
pernyataan_b
# ...
else:
# Blok kode dijalankan jika semua kondisi sebelumnya salah (False)
pernyataan_x
pernyataan_y
# ...
angka = 10
if angka > 0:
print("Angka positif")
elif angka == 0:
print("Angka nol")
else:
print("Angka negatif")
Dalam contoh ini, blok kode yang tercetak tergantung pada nilai variabel angka. Jika angka
lebih besar dari 0, maka pesan "Angka positif" akan dicetak. Jika angka sama dengan 0, pesan
"Angka nol" akan dicetak. Jika keduanya tidak benar, maka blok kode di dalam else akan
dijalankan, mencetak pesan "Angka negatif".
17
Looping
Dalam Python, terdapat dua jenis loop yang umum digunakan: for loop dan while loop. Di
bawah ini adalah contoh penggunaan looping dengan memanfaatkan tipe data list, DataFrame,
dan tuple.
import pandas as pd
# Contoh DataFrame
data = {'Nama': ['Alice', 'Bob', 'Charlie'],
'Usia': [25, 30, 35]}
df = pd.DataFrame(data)
18
Membuat Function
Function atau fungsi dalam pemrograman Python adalah blok kode yang dirancang untuk
melakukan tugas tertentu dan dapat dipanggil atau dijalankan sesuai kebutuhan. Fungsi
memungkinkan pemisahan dan pengorganisasian kode, memudahkan pembacaan, serta
mengurangi duplikasi kode.
Berikut adalah contoh penggunaan fungsi dengan beberapa code snippet yang telah diberikan
sebelumnya:
def print_buah(buah_list):
# List buah
buah = ["apel", "jeruk", "pisang", "mangga"]
# Memanggil fungsi
print("Menggunakan Function untuk List:")
print_buah(buah)
import pandas as pd
def print_df_info(dataframe):
# Fungsi untuk mencetak informasi DataFrame
for index, row in dataframe.iterrows():
print(f"{row['Nama']} berusia {row['Usia']} tahun.")
# DataFrame
data = {'Nama': ['Alice', 'Bob', 'Charlie'],
'Usia': [25, 30, 35]}
df = pd.DataFrame(data)
# Memanggil fungsi
print("\nMenggunakan Function untuk DataFrame:")
print_df_info(df)
def print_warna(warna_tuple):
# Fungsi untuk mencetak elemen-elemen dalam tuple warna
19
for warna_item in warna_tuple:
print(warna_item)
# Tuple warna
warna = ('merah', 'hijau', 'biru')
# Memanggil fungsi
print("\nMenggunakan Function untuk Tuple:")
print_warna(warna)
def print_list_with_while(angka_list):
# Fungsi untuk mencetak elemen-elemen dalam list dengan while loop
index = 0
while index < len(angka_list):
print(angka_list[index])
index += 1
# List angka
angka = [1, 2, 3, 4, 5]
# Memanggil fungsi
print("\nMenggunakan Function untuk List dengan While Loop:")
print_list_with_while(angka)
20
TERIMA KASIH
21