Anda di halaman 1dari 3

Instruksi:

1. Setiap kelompok memilih satu problem untuk dikerjakan.


2. Selesaikan masalah tersebut dengan objektif untuk menjawab pertanyaan yang diberikan.
3. Tulis hasil yang diperoleh dalam suatu makalah hasil menggunakan template Word yang telah disediakan.

Dataset:
1. (Regression) Global Country Information Dataset 2023:
https://www.kaggle.com/datasets/nelgiriyewithana/countries-of-the-world-2023
2. (Classification) Body Mass Index Data:
https://www.kaggle.com/datasets/sjagkoo7/bmi-body-mass-index

Problem 1 (Dataset 1)
Machine Learning-Based Regression for life expectancy. Tujuan dari projek ini adalah untuk memodelkan angka
harapan hidup di suatu negara menggunakan beberapa prediktor. Metode machine learning yang digunakan adalah:
1. Linear regression
2. Lasso regression
3. Ridge regression
4. Elastic net regression
5. Quantile regression
Pilih atribut “Life expectancy” sebagai variabel respon yang akan diprediksi, lalu pilih semua (atau sebagian) atribut
lainnya sebagai variabel penjelas. Dari 195 negara, pilih 75% dari data tersebut secara acak sebagai data training, lalu
gunakan sisanya sebagai data testing. Hati-hati dalam memilih data training secara acak, gunakan random generator
dengan seed tertentu sehingga pengacakan tidak berubah-ubah. Gunakan root mean squared error sebagai ukuran
keakuratan model.
Jawablah beberapa pertanyaan berikut:
a) Deskripsikan data angka harapan hidup dari setiap negara tersebut! Bagaimana anda menjelaskan posisi angka
harapan hidup di Indonesia?
b) Berdasarkan hasil regresi yang diperoleh, metode manakah yang paling akurat untuk memprediksi angka harapan
hidup?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi angka harapan hidup pada
model terpilih? Apa yang menjadi tolak ukurnya?

Problem 2 (Dataset 1)
Tree-Based Regression for life expectancy. Tujuan dari projek ini adalah untuk memodelkan angka harapan hidup di
suatu negara menggunakan beberapa prediktor. Metode machine learning yang digunakan adalah:
1. Decision tree regression
2. Random forests regression
3. Gradient boosting regression
4. XGBoost regression
Pilih atribut “Life expectancy” sebagai variabel respon yang akan diprediksi, lalu pilih semua (atau sebagian) atribut
lainnya sebagai variabel penjelas. Dari 195 negara, pilih 75% dari data tersebut secara acak sebagai data training, lalu
gunakan sisanya sebagai data testing. Hati-hati dalam memilih data training secara acak, gunakan random generator
dengan seed tertentu sehingga pengacakan tidak berubah-ubah. Gunakan root mean squared error sebagai ukuran
keakuratan model.
Jawablah beberapa pertanyaan berikut:
a) Deskripsikan data angka harapan hidup dari setiap negara tersebut! Bagaimana anda menjelaskan posisi angka
harapan hidup di Indonesia?
b) Berdasarkan hasil regresi yang diperoleh, metode manakah yang paling akurat untuk memprediksi angka harapan
hidup?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi angka harapan hidup pada
model terpilih? Apa yang menjadi tolak ukurnya?
Problem 3 (Dataset 2)
Machine Learning-Based Classification for BMI. Tujuan dari projek ini adalah untuk mengklasifikasikan BMI
berdasarkan gender, tinggi dan berat badan. Metode machine learning yang digunakan adalah:
1. k Nearest Neighbor
2. Random Forest
2. Support Vector Machine
Pilih atribut “Index” sebagai variabel respon yang akan diprediksi, lalu pilih atribut lainnya sebagai variabel penjelas.
Pilih 75% dari data tersebut secara acak sebagai data training, lalu gunakan sisanya sebagai data testing. Hati-hati dalam
memilih data training secara acak, gunakan random generator dengan seed tertentu sehingga pengacakan tidak
berubah-ubah. Gunakan root mean squared error sebagai ukuran keakuratan model.
Jawablah beberapa pertanyaan berikut:
a) Deskripsikan data tinggi badan, berat badan, dan BMI! Bagaimana korelasi antara tinggi dan berat badan terhadap
BMI?
b) Berdasarkan hasil klasifikasi yang diperoleh, metode manakah yang paling akurat untuk memprediksi BMI?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi BMI pada model terpilih?
Apa yang menjadi tolak ukurnya?

Problem 4 (Dataset 2)
Tree-Based Classification for BMI. Tujuan dari projek ini adalah untuk mengklasifikasikan BMI berdasarkan gender,
tinggi dan berat badan. Metode machine learning yang digunakan adalah:
1. Decision tree regression
2. Random forests regression
3. Gradient boosting regression
4. XGBoost regression
Pilih atribut “Index” sebagai variabel respon yang akan diprediksi, lalu pilih atribut lainnya sebagai variabel penjelas.
Pilih 75% dari data tersebut secara acak sebagai data training, lalu gunakan sisanya sebagai data testing. Hati-hati dalam
memilih data training secara acak, gunakan random generator dengan seed tertentu sehingga pengacakan tidak
berubah-ubah. Gunakan root mean squared error sebagai ukuran keakuratan model.
Jawablah beberapa pertanyaan berikut:
a) Deskripsikan data tinggi badan, berat badan, dan BMI! Bagaimana korelasi antara tinggi dan berat badan terhadap
BMI?
b) Berdasarkan hasil klasifikasi yang diperoleh, metode manakah yang paling akurat untuk memprediksi BMI?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi BMI pada model terpilih?
Apa yang menjadi tolak ukurnya?

- Selamat Mengerjakan -

Anda mungkin juga menyukai