Final Project

FINAL PROJECT
EXPLORE ML
Kelompok 2
TAHAP-TAHAP DALAM PEMODELAN
1. EDA (EXPLORATORY DATA ANALYSIS)
2. DATA VISUALISATION
3. DATA PREPROCESSING
• MISSING VALUE
• OUTLIER
• STANDARD SCALLER
4. ALGORITMA KLASIFIKASI
• RANDOM FOREST
• SUPPORT VECTOR MACHINE (SVM)
• DECISION TREE
5. KESIMPULAN
OBJECTIVE : MENENTUKAN KUALITAS RED WINE MELALUI ALGORITMA KLASIFIKASI
Keterangan Variabel :
• Fixed Acidity (Keasaman tetap): Ini menunjukkan jumlah asam tartarat dalam anggur dan diukur dalam g/dm3
• Volatile Acidity (Keasaman yang mudah menguap): Ini menunjukkan jumlah asam asetat dalam anggur. Itu diukur dalam g / dm3.
• Citric Acid (Asam sitrat): Ini menunjukkan jumlah asam sitrat dalam anggur. Itu juga diukur dalam g / dm3
• Residual sugar(Residu gula): Ini menunjukkan jumlah gula yang tersisa dalam anggur setelah proses fermentasi selesai. Itu juga diukur dalam g / dm3
• Free Sulfur dioxide (Sulfur dioksida bebas): Ini mengukur jumlah sulfur dioksida (SO2) dalam bentuk bebas. Itu juga diukur dalam g / dm3
• Total sulfur dioxide (Total sulfur dioksida): Ini mengukur jumlah total SO2 dalam anggur. Bahan kimia ini bekerja sebagai agen antioksidan dan antimikroba.
• Density (Kepadatan): Ini menunjukkan ketebalan anggur dan diukur dalam g/dm3.
• pH: Ini menunjukkan nilai pH anggur. Kisaran nilainya antara 0 hingga 14,0, yang menunjukkan keasaman sangat tinggi, dan 14 menunjukkan keasaman esensial.
• Sulphates (Sulfat): Ini menunjukkan jumlah kalium sulfat dalam anggur. Itu juga diukur dalam g / dm3.
• Alcohol (Alkohol): Ini menunjukkan kandungan alkohol dalam anggur.
• Quality (Kualitas): Ini menunjukkan kualitas anggur, yang berkisar dari 1 hingga 10. Di sini, semakin tinggi nilainya, semakin baik anggurnya.
1. EXPLORATORY DATA ANALYSIS (EDA)
BERTUJUAN UNTUK MEMAHAMI ISI DATA YANG AKAN DIGUNAKAN MELALUI BERBAGA CARA , YAITU :
• MEMERIKSA JUMLAH BARIS DAN KOLOM

• MENGETAHUI NAMA KOLOM YANG TERDAPAT PADA DATA
• MEMERIKSA JUMLAH DUPLIKASI DATA YANG TERSEDIA
• MEMERIKSA KEKOSONGAN DATA
• MENGETAHUI DESKRIPSI STATISTIC PADA SETIAP VARIABLE
• MENGETAHUI SETIAP TIPE VARIABEL
2. DATA VISUALISATION
MEMILIKI BEBERAPA FUNGSI YAITU :
• MEMPERMUDAH PEMAHAMAN
• MEMBANDINGKAN DATA
• MEMBUAT DATA LEBIH MENARIK
• MEMPERMUDAH KOMUNIKASI
PADA KALI INI SAYA AKAN MENGGUNAKAN BEBERAPA MODEL VISUALISASI SEPERTI :
• DISTPLOT
• HISTOGRAM
• HEATMAP
• PAIR PLOT
DISTPLOT
DARI GAMBAR DISAMPING KITA DAPAT

MELIHAT DISTRIBUSI VARIABLE
SULPATHES DAN DENSITY PLOT BAHWA
TINGKAT DISTRIBUSI SULPHATE
TERTINGGI TERJADI PADA RENTANG
0.50 – 0.75
HISTOGRAM
DARI GAMBAR DIATAS KITA DAPAT MELIHAT DISTRIBUSI VARIABEL PH DENGAN

MENGGUNAKAN HISTOGRAM BAHWA DISTRIBUSI VARIABLE PH TERBANYAK SEBESAR 3.3
HEATMAP
KEGUNAAN HEATMAP ADALAH UNTUK MELACAK KORELASI ANTAR 2 VARIABLE DENGAN

REPRESENTASI WARNA YANG BERBEDA-BEDA.DARI GAMBAR DIATAS DAPAT DISIMPULKAN
BAHWA ALCOHOL MEMPUNYAI KORELASI YANG CUKUP KUAT DENGAN PH SEMENTARA
ITU FIXED ACIDITY MEMPUNYAI KORELASI YANG LEMAH DENGAN DENGAN PH
PAIRPLOT
Pair plot digunakan untuk menganalisa antar dua variabel pada data (bivariate analysis). Pada bagian scatter plot
dapat dilihat sebaran data dari dua variabel yang dipilih
3. DATA PREPROCESSING
DATA PREPROCESSING ADALAH PROSES MENGUBAH DATA MENTAH KE DALAM BENTUK YANG
LEBIH MUDAH DIPAHAMI. PROSES INI DIPERLUKAN UNTUK MEMPERBAIKI KESALAHAN PADA
DATA MENTAH YANG SERINGKALI TIDAK LENGKAP DAN MEMILIKI FORMAT YANG TIDAK
TERATUR.
PADA KALI SAYA AKAN MENGGGUNAKAN BEBERAPA TAHAP DATA PREPROCESSING YAITU :
• MISSING VALUE
• OUTLIER
• STANDARD SCALLER
MISSING VALUE
MISSING VALUE ADALAH HILANGNYA BEBERAPA DATA YANG TELAH DIPEROLEH.SALAH SATU
ALASAN TERJADINYA MISSING VALUE YAITU TIDAK TERKUMPULNYA BEBERAPA INFORMASI
DARI GAMBAR DIATAS, DAPAT DIKETAHUI BAHWA TIDAK TERJADI MISSING VALUE PADA
DATASET INI
OUTLIER
OUTLIER ADALAH DATA
OBSERVASI YANG MUNCUL
DENGAN NILAI-NILAI YANG
BERBEDA JAUH DENGAN
NILAI LAINNYA PADA
KELOMPOK YANG
SAMA.SALAH SATU CARA
MENCARI NILAI OUTLIER
PADA SETIAP VARIABEL
ADALAH DENGAN
MENGGUNAKAN
VISUALISASI BOXPLOT
CARA MENGATASI NILAI OUTLIER SALAH SATUNYA DENGAN NILAI TERSEBUT DENGAN
KUARTIL ATAS DAN BAWAH
PASTIKAN KEMBALI NILAI OUTLIER TELAH HILANG PADA SETIAP VARIABEL DENGAN
MENGGUNAKAN VISUALISASI BOXPLOT
STANDARD SCALLER (SS)
StandardScaler adalah class dari sklearn untuk melakukan normalisasi data agar data yang digunakan tidak memiliki
penyimpangan yang besar. Serta SS termasuk cara untuk menormalisasi data. Normalisasi data adalah proses
membuat beberapa variabel memiliki rentang nilai yang sama, tidak ada yang terlalu besar maupun terlalu kecil
sehingga dapat membuat analisis statistik menjadi lebih mudah.
4. ALGORITMA KLASIFIKASI
UMUMNYA ALGORITMA MACHINE LEARNING INI DIGUNAKAN UNTUK MEMPREDIKSI NILAI OUTPUT DARI
INPUT YANG DIBERIKAN. DUA PROSES UTAMA DARI ALGORITMA MACHINE LEARNING ADALAH
KLASIFIKASI DAN REGRESI. ALGORITMA MACHINE LEARNING SENDIRI DIBAGI MENJADI DUA, YAITU
SUPERVISED DAN UNSUPERVISED LEARNING
SUPERVISED LEARNING UNSUPERVISED

Membutuhkan data input dan LEARNING
data output yang diinginkan Bekerja dengan data yang
dan digunakan untuk tidak diklasifikasikan atau
membuat pelabelan, tidak diberi label
ALGORITMA KLASIFIKASI TERMASUK DALAM ALGORITMA SUPERVISED LEARNING KARENA BEKERJA
DENGAN DATA YANG DIBERI LABEL.
PADA DATASET INI AKAN DIGUNAKAN BEBERAPA MACAM ALGORITMA KLASIFIKASI , YAITU :
• RANDOM FOREST
• SUPPORT VECTOR MACHINE (SVM)
• DECISION TREE
RANDOM FOREST
Random Forest adalah algoritma machine learning yang menggabungkan keluaran dari beberapa decision tree untuk mencapai
satu hasil. Sesuai namanya, Forest atau 'hutan' dibentuk dari banyak tree (pohon) yang diperoleh melalui proses bagging atau
bootstrap aggregating.
Kelebihan Random Forest :

• Kuat terhadap data outlier (pencilan data).
• Bekerja dengan baik dengan data non-linear.
• Risiko overfitting lebih rendah.
• Berjalan secara efisien pada kumpulan data yang besar.
• Akurasi yang lebih baik daripada algoritma klasifikasi lainnya.
Kelemahan Random Forest :
• Random Forest cenderung menyimpang saat berhadapan dengan variabel kategorikal.
• Waktu komputasi pada dataset berskala besar relatif lambat
A
SUPPORT VECTOR MACHINE (SVM)
SVM memiliki konsep yang lebih matang dan lebih jelas secara matematis dibandingkan dengan teknik-teknik klasifikasi
lainnya. SVM juga dapat mengatasi masalah klasifikasi dan regresi dengan linear maupun non linear. Algoritma SVM bekerja
dengan cara memetakan data ke ruang fitur berdimensi tinggi sehingga titik data dapat dikategorikan, bahkan ketika data
tersebut tidak dapat dipisahkan secara linier / Memaksimalkan Margin antar Kelas.
Apabila pemisah antar kategori berhasil ditemukan, data dapat ditransformasikan sedemikian rupa sehingga pemisah tersebut
dapat digambarkan sebagai hyperplane. Kemudian, karakteristik data baru dapat digunakan untuk memprediksi pada
kelompok mana record baru seharusnya berada.
DECISION TREE
Decision tree adalah algoritma machine learning yang menggunakan seperangkat aturan untuk membuat keputusan dengan
struktur seperti pohon yang memodelkan kemungkinan hasil, biaya sumber daya, utilitas dan kemungkinan konsekuensi atau
resiko. Konsepnya adalah dengan cara menyajikan algoritma dengan pernyataan bersyarat, yang meliputi cabang untuk
mewakili langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan. kelebihan
menggunakan algoritma decision tree antara lain; 1) Mudah dibaca dan ditafsirkan tanpa perlu pengetahuan statistik; 2)
Mudah disiapkan tanpa harus menghitung dengan perhitungan yang rumit; 3) Proses Data Cleaning cenderung lebih sedikit,
kasus nilai yang hilang dan outlier kurang signifikan pada data decision tree.
Didapatkan Skor Pemodelan Sebesar 0,83
KESIMPULAN
ALGORITMA KLASIFIKASI SKOR

RANDOM FOREST 0,90
SUPPORT VECTOR MACHINE (SVM) 0,87
DECISION TREE 0,83

Final Project

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Final Project

Diunggah oleh

Hak Cipta:

Format Tersedia

FINAL PROJECT

• Alcohol (Alkohol): Ini menunjukkan kandungan alkohol dalam anggur.

• MEMERIKSA JUMLAH BARIS DAN KOLOM

DARI GAMBAR DISAMPING KITA DAPAT

DARI GAMBAR DIATAS KITA DAPAT MELIHAT DISTRIBUSI VARIABEL PH DENGAN

KEGUNAAN HEATMAP ADALAH UNTUK MELACAK KORELASI ANTAR 2 VARIABLE DENGAN

SUPERVISED LEARNING UNSUPERVISED

Kelebihan Random Forest :

ALGORITMA KLASIFIKASI SKOR

Anda mungkin juga menyukai