Final Project
Final Project
EXPLORE ML
Kelompok 2
TAHAP-TAHAP DALAM PEMODELAN
1. EDA (EXPLORATORY DATA ANALYSIS)
2. DATA VISUALISATION
3. DATA PREPROCESSING
• MISSING VALUE
• OUTLIER
• STANDARD SCALLER
4. ALGORITMA KLASIFIKASI
• RANDOM FOREST
• SUPPORT VECTOR MACHINE (SVM)
• DECISION TREE
5. KESIMPULAN
OBJECTIVE : MENENTUKAN KUALITAS RED WINE MELALUI ALGORITMA KLASIFIKASI
Keterangan Variabel :
• Fixed Acidity (Keasaman tetap): Ini menunjukkan jumlah asam tartarat dalam anggur dan diukur dalam g/dm3
• Volatile Acidity (Keasaman yang mudah menguap): Ini menunjukkan jumlah asam asetat dalam anggur. Itu diukur dalam g / dm3.
• Citric Acid (Asam sitrat): Ini menunjukkan jumlah asam sitrat dalam anggur. Itu juga diukur dalam g / dm3
• Residual sugar(Residu gula): Ini menunjukkan jumlah gula yang tersisa dalam anggur setelah proses fermentasi selesai. Itu juga diukur dalam g / dm3
• Free Sulfur dioxide (Sulfur dioksida bebas): Ini mengukur jumlah sulfur dioksida (SO2) dalam bentuk bebas. Itu juga diukur dalam g / dm3
• Total sulfur dioxide (Total sulfur dioksida): Ini mengukur jumlah total SO2 dalam anggur. Bahan kimia ini bekerja sebagai agen antioksidan dan antimikroba.
• Density (Kepadatan): Ini menunjukkan ketebalan anggur dan diukur dalam g/dm3.
• pH: Ini menunjukkan nilai pH anggur. Kisaran nilainya antara 0 hingga 14,0, yang menunjukkan keasaman sangat tinggi, dan 14 menunjukkan keasaman esensial.
• Sulphates (Sulfat): Ini menunjukkan jumlah kalium sulfat dalam anggur. Itu juga diukur dalam g / dm3.
• Quality (Kualitas): Ini menunjukkan kualitas anggur, yang berkisar dari 1 hingga 10. Di sini, semakin tinggi nilainya, semakin baik anggurnya.
1. EXPLORATORY DATA ANALYSIS (EDA)
BERTUJUAN UNTUK MEMAHAMI ISI DATA YANG AKAN DIGUNAKAN MELALUI BERBAGA CARA , YAITU :
PADA KALI INI SAYA AKAN MENGGUNAKAN BEBERAPA MODEL VISUALISASI SEPERTI :
• DISTPLOT
• HISTOGRAM
• HEATMAP
• PAIR PLOT
DISTPLOT
Pair plot digunakan untuk menganalisa antar dua variabel pada data (bivariate analysis). Pada bagian scatter plot
dapat dilihat sebaran data dari dua variabel yang dipilih
3. DATA PREPROCESSING
DATA PREPROCESSING ADALAH PROSES MENGUBAH DATA MENTAH KE DALAM BENTUK YANG
LEBIH MUDAH DIPAHAMI. PROSES INI DIPERLUKAN UNTUK MEMPERBAIKI KESALAHAN PADA
DATA MENTAH YANG SERINGKALI TIDAK LENGKAP DAN MEMILIKI FORMAT YANG TIDAK
TERATUR.
PADA KALI SAYA AKAN MENGGGUNAKAN BEBERAPA TAHAP DATA PREPROCESSING YAITU :
• MISSING VALUE
• OUTLIER
• STANDARD SCALLER
MISSING VALUE
MISSING VALUE ADALAH HILANGNYA BEBERAPA DATA YANG TELAH DIPEROLEH.SALAH SATU
ALASAN TERJADINYA MISSING VALUE YAITU TIDAK TERKUMPULNYA BEBERAPA INFORMASI
DARI GAMBAR DIATAS, DAPAT DIKETAHUI BAHWA TIDAK TERJADI MISSING VALUE PADA
DATASET INI
OUTLIER
OUTLIER ADALAH DATA
OBSERVASI YANG MUNCUL
DENGAN NILAI-NILAI YANG
BERBEDA JAUH DENGAN
NILAI LAINNYA PADA
KELOMPOK YANG
SAMA.SALAH SATU CARA
MENCARI NILAI OUTLIER
PADA SETIAP VARIABEL
ADALAH DENGAN
MENGGUNAKAN
VISUALISASI BOXPLOT
CARA MENGATASI NILAI OUTLIER SALAH SATUNYA DENGAN NILAI TERSEBUT DENGAN
KUARTIL ATAS DAN BAWAH
PASTIKAN KEMBALI NILAI OUTLIER TELAH HILANG PADA SETIAP VARIABEL DENGAN
MENGGUNAKAN VISUALISASI BOXPLOT
STANDARD SCALLER (SS)
StandardScaler adalah class dari sklearn untuk melakukan normalisasi data agar data yang digunakan tidak memiliki
penyimpangan yang besar. Serta SS termasuk cara untuk menormalisasi data. Normalisasi data adalah proses
membuat beberapa variabel memiliki rentang nilai yang sama, tidak ada yang terlalu besar maupun terlalu kecil
sehingga dapat membuat analisis statistik menjadi lebih mudah.
4. ALGORITMA KLASIFIKASI
UMUMNYA ALGORITMA MACHINE LEARNING INI DIGUNAKAN UNTUK MEMPREDIKSI NILAI OUTPUT DARI
INPUT YANG DIBERIKAN. DUA PROSES UTAMA DARI ALGORITMA MACHINE LEARNING ADALAH
KLASIFIKASI DAN REGRESI. ALGORITMA MACHINE LEARNING SENDIRI DIBAGI MENJADI DUA, YAITU
SUPERVISED DAN UNSUPERVISED LEARNING
Random Forest adalah algoritma machine learning yang menggabungkan keluaran dari beberapa decision tree untuk mencapai
satu hasil. Sesuai namanya, Forest atau 'hutan' dibentuk dari banyak tree (pohon) yang diperoleh melalui proses bagging atau
bootstrap aggregating.
Apabila pemisah antar kategori berhasil ditemukan, data dapat ditransformasikan sedemikian rupa sehingga pemisah tersebut
dapat digambarkan sebagai hyperplane. Kemudian, karakteristik data baru dapat digunakan untuk memprediksi pada
kelompok mana record baru seharusnya berada.
DECISION TREE
Decision tree adalah algoritma machine learning yang menggunakan seperangkat aturan untuk membuat keputusan dengan
struktur seperti pohon yang memodelkan kemungkinan hasil, biaya sumber daya, utilitas dan kemungkinan konsekuensi atau
resiko. Konsepnya adalah dengan cara menyajikan algoritma dengan pernyataan bersyarat, yang meliputi cabang untuk
mewakili langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan. kelebihan
menggunakan algoritma decision tree antara lain; 1) Mudah dibaca dan ditafsirkan tanpa perlu pengetahuan statistik; 2)
Mudah disiapkan tanpa harus menghitung dengan perhitungan yang rumit; 3) Proses Data Cleaning cenderung lebih sedikit,
kasus nilai yang hilang dan outlier kurang signifikan pada data decision tree.
Didapatkan Skor Pemodelan Sebesar 0,83
KESIMPULAN