Klasifikasi Data Iris Dataset Iris merupakan dataset multivariat yang diperkenalkan oleh ahli statistika dan biologi Inggris, Ronald Fisher, dalam paper- nya tahun 1936 Dataset ini terdiri dari 3 spesies iris (Iris Setosa, Iris virginica, dan Iris versicolor) dan tiap spesies memiliki 50 sampel Empat fitur yang diukur dari masing-masing sampel yaitu panjang dan lebar sepal dan kelopak, dalam sentimeter (Petal Length, Petal Width, Sepal Length, Sepal Width) Exploratory Data Analysis (EDA) Pada dataset ini kita diberikan 5 kolom yaitu Petal Length, Petal Width, Sepal Length, Sepal Width, dan Species Kolom Species merupakan target atau kelas dalam kasus klasifikasi ini 4 kolom lainnya (Petal Length, Petal Width, Sepal Length, Sepal Width) disebut juga sebagai fitur Fitur inilah yang akan menentukan suatu data akan diklasifikasikan ke dalam kelas yang mana Berikut dijelaskan cara pengolahan Dataset Iris dengan menggunakan python Understanding Data Proses ini menunjukkan pengenalan data lebih lanjut dengan mengeluarkan ukuran data dan label apa saja yang ada di dalam data beserta jumlahnya masing-masing Di sini kita juga memastikan bahwa label yang ada cenderung seimbang sehingga data yang kita miliki bisa disebut dengan Balanced dataset, bukan Imbalanced dataset Scatter Plot Scatter Plot Dari gambar diatas kita dapat melihat hasil plot data label (species) dari fitur sepal_length dan sepal_width Kita bisa menarik beberapa informasi dari plot tersebut yaitu : ◦ Iris Sentosa secara umum terpisah secara linier (linear separated) dengan Iris Versicolor dan Iris Virginica. ◦ Iris Versicolor dan Iris Virginica mengalami ovelap sehingga sulit dipisahkan secara linier sehingga lebih sulit dipisahkan dibandingkan dengan Iris Sentosa. ◦ Dari dua fitur diatas sudah cukup baik memisahkan label Iris Sentosa tapi belum cukup baik untuk dua label lainnya (Iris Versicolor dan Iris Virginica) Pair Plot Pair plot ini menjelaskan kepada kita tentang distribusi dari sebuah variabel dan juga hubungan antara dua variabel terhadap target Karena fitur yang kita miliki ada 4, maka ada 16 gambar yang terbentuk Pada pair plot diatas gambar pada bagian diagonalnya menjelaskan tentang PDF/distribusi peluang pada data tersebut Gambar scatter plot menunjukkan hubungan antara fitur-fitur yang ada Secara umum di semua plot yang ada, memang spesies Iris Sentosa terlihat lebih mudah dipisahkan daripada kedua spesies lainnya Statistika Dasar Kita dapat mengeluarkan statistika dasar dari data yang kita punya dengan syntax berikut : Statistika Dasar Output dari syntax tersebut akan mengeluarkan statistika dasar dari fitur-fitur yang kita miliki Tiap fitur akan dimunculkan beberapa deskripsi yaitu : ◦ count, yaitu banyaknya jumlah data yang ada di fitur tersebut. ◦ mean, yaitu rata-rata dalam satu fitur (satu kolom). ◦ std, yaitu standar deviasi dari fitur tersebut. ◦ min, yaitu nilai minimum (nilai terendah) yang ada pada fitur tersebut. ◦ (25%, 50%, dan 75%), secara terurut adalah nilai kuartil 1, kuartil 2, dan kuartil 3. ◦ max, yaitu nilai maximum (nilai tertinggi) yang ada pada fitur tersebut. Preprocessing Langkah selanjutnya untuk membuat klasifikasi dari Dataset Iris ini adalah melakukan preprocessing untuk menyiapkan data agar siap untuk masuk ke dalam proses klasifikasi menggunakan algoritma Machine Learning Split Data Membuat model Machine Learning Membuat model dengan algoritma Decission Tree Syntax di atas merupakan proses membuat model Machine Learning untuk data train kita Algoritma yang kita gunakan kali ini adalah algoritma Decission Tree dengan menggunakan library scikit-learn Prediksi Data Test
Untuk prediksi data, cukup menggunakan
syntax .predict setelah variabel model dan jangan lupa menuliskan data tujuan yang akan kita prediksi. Hasil prediksi kita nanti disimpan di dalam variabel hasil Evaluasi Model Evaluasi model di sini kita akan mengeluarkan nilai akurasi dari model yang kita buat terhadap data train dan data test kita Bisa kita lihat pada data train akurasi model kita berada pada angka 100% dan pada data test akurasi model kita menunjukkan angka 98% Dengan perbedaan akurasi yang cenderung tidak signifikan, bisa kita katakan bahwa model kita tidak overfit Dengan demikian, model ini bisa kita katakan model yang sudah cukup baik untuk mengklasifikasikan Dataset Iris Referensi : Santosa, Budi dan Ardian Umam. 2018. Data Mining dan Big Data Abalytics. Yogyakarta: Penebar Media Pustaka. https://www.kaggle.com/arshid/iris-flower- dataset https://scikit-learn.org/ Terima Kasih