Anda di halaman 1dari 24

Jaringan Syaraf Tiruan

Klasifikasi Bunga IRIS


Study Kasus

Nur Hatima Inda Arifin, M.Kom

Teknik Informatika - UNUJA


Klasifikasi Data Iris
 Dataset Iris merupakan dataset multivariat
yang diperkenalkan oleh ahli statistika dan
biologi Inggris, Ronald Fisher, dalam paper-
nya tahun 1936
 Dataset ini terdiri dari 3 spesies iris (Iris
Setosa, Iris virginica, dan Iris versicolor) dan
tiap spesies memiliki 50 sampel
 Empat fitur yang diukur dari masing-masing
sampel yaitu panjang dan lebar sepal dan
kelopak, dalam sentimeter (Petal Length,
Petal Width, Sepal Length, Sepal Width)
Exploratory Data Analysis (EDA)
 Pada dataset ini kita diberikan 5 kolom yaitu
Petal Length, Petal Width, Sepal Length, Sepal
Width, dan Species
 Kolom Species merupakan target atau kelas
dalam kasus klasifikasi ini
 4 kolom lainnya (Petal Length, Petal Width,
Sepal Length, Sepal Width) disebut juga
sebagai fitur
 Fitur inilah yang akan menentukan suatu data
akan diklasifikasikan ke dalam kelas yang
mana
 Berikut dijelaskan cara pengolahan
Dataset Iris dengan menggunakan python
Understanding Data
 Proses ini menunjukkan pengenalan data
lebih lanjut dengan mengeluarkan ukuran
data dan label apa saja yang ada di dalam
data beserta jumlahnya masing-masing
 Di sini kita juga memastikan bahwa label
yang ada cenderung seimbang sehingga
data yang kita miliki bisa disebut
dengan Balanced dataset,
bukan Imbalanced dataset
Scatter Plot
Scatter Plot
 Dari gambar diatas kita dapat melihat hasil plot
data label (species) dari fitur sepal_length dan
sepal_width
 Kita bisa menarik beberapa informasi dari plot
tersebut yaitu :
◦ Iris Sentosa secara umum terpisah secara linier (linear
separated) dengan Iris Versicolor dan Iris Virginica.
◦ Iris Versicolor dan Iris Virginica
mengalami ovelap sehingga sulit dipisahkan secara linier
sehingga lebih sulit dipisahkan dibandingkan dengan Iris
Sentosa.
◦ Dari dua fitur diatas sudah cukup baik memisahkan
label Iris Sentosa tapi belum cukup baik untuk dua label
lainnya (Iris Versicolor dan Iris Virginica)
Pair Plot
 Pair plot ini menjelaskan kepada kita tentang
distribusi dari sebuah variabel dan juga hubungan
antara dua variabel terhadap target
 Karena fitur yang kita miliki ada 4, maka ada 16
gambar yang terbentuk
 Pada pair plot diatas gambar pada bagian diagonalnya
menjelaskan tentang PDF/distribusi peluang pada
data tersebut
 Gambar scatter plot menunjukkan hubungan antara
fitur-fitur yang ada
 Secara umum di semua plot yang ada, memang
spesies Iris Sentosa terlihat lebih mudah dipisahkan
daripada kedua spesies lainnya
Statistika Dasar
 Kita dapat mengeluarkan statistika dasar
dari data yang kita punya dengan syntax
berikut :
Statistika Dasar
 Output dari syntax tersebut akan mengeluarkan
statistika dasar dari fitur-fitur yang kita miliki
 Tiap fitur akan dimunculkan beberapa deskripsi
yaitu :
◦ count, yaitu banyaknya jumlah data yang ada di fitur
tersebut.
◦ mean, yaitu rata-rata dalam satu fitur (satu kolom).
◦ std, yaitu standar deviasi dari fitur tersebut.
◦ min, yaitu nilai minimum (nilai terendah) yang ada pada
fitur tersebut.
◦ (25%, 50%, dan 75%), secara terurut adalah nilai kuartil
1, kuartil 2, dan kuartil 3.
◦ max, yaitu nilai maximum (nilai tertinggi) yang ada
pada fitur tersebut.
Preprocessing
 Langkah selanjutnya untuk membuat
klasifikasi dari Dataset Iris ini adalah
melakukan preprocessing untuk
menyiapkan data agar siap untuk masuk ke
dalam proses klasifikasi menggunakan
algoritma Machine Learning
Split Data
Membuat model Machine Learning
 Membuat model dengan algoritma Decission
Tree
 Syntax di atas merupakan proses
membuat model Machine Learning untuk
data train kita
 Algoritma yang kita gunakan kali ini adalah
algoritma Decission Tree dengan
menggunakan library scikit-learn
Prediksi Data Test

 Untuk prediksi data, cukup menggunakan


syntax .predict setelah variabel model dan jangan
lupa menuliskan data tujuan yang akan kita
prediksi. Hasil prediksi kita nanti disimpan di
dalam variabel hasil
Evaluasi Model
 Evaluasi model di sini kita akan
mengeluarkan nilai akurasi dari model
yang kita buat terhadap data train dan
data test kita
 Bisa kita lihat pada data train akurasi
model kita berada pada angka 100% dan
pada data test akurasi model kita
menunjukkan angka 98%
 Dengan perbedaan akurasi yang
cenderung tidak signifikan, bisa kita
katakan bahwa model kita tidak overfit
 Dengan demikian, model ini bisa kita
katakan model yang sudah cukup baik
untuk mengklasifikasikan Dataset Iris
Referensi :
 Santosa, Budi dan Ardian Umam.
2018. Data Mining dan Big Data Abalytics.
Yogyakarta: Penebar Media Pustaka.
 https://www.kaggle.com/arshid/iris-flower-
dataset
 https://scikit-learn.org/
Terima Kasih

Anda mungkin juga menyukai