Tugas 231017 172401

Instruksi:
1. Setiap kelompok memilih satu problem untuk dikerjakan.

2. Selesaikan masalah tersebut dengan objektif untuk menjawab pertanyaan yang diberikan.
3. Tulis hasil yang diperoleh dalam suatu makalah hasil menggunakan template Word yang telah disediakan.
Dataset:
1. (Regression) Global Country Information Dataset 2023:
https://www.kaggle.com/datasets/nelgiriyewithana/countries-of-the-world-2023
2. (Classification) Body Mass Index Data:
https://www.kaggle.com/datasets/sjagkoo7/bmi-body-mass-index
Problem 1 (Dataset 1)
Machine Learning-Based Regression for life expectancy. Tujuan dari projek ini adalah untuk memodelkan angka
harapan hidup di suatu negara menggunakan beberapa prediktor. Metode machine learning yang digunakan adalah:
1. Linear regression
2. Lasso regression
3. Ridge regression
4. Elastic net regression
5. Quantile regression
Pilih atribut “Life expectancy” sebagai variabel respon yang akan diprediksi, lalu pilih semua (atau sebagian) atribut
lainnya sebagai variabel penjelas. Dari 195 negara, pilih 75% dari data tersebut secara acak sebagai data training, lalu
gunakan sisanya sebagai data testing. Hati-hati dalam memilih data training secara acak, gunakan random generator
dengan seed tertentu sehingga pengacakan tidak berubah-ubah. Gunakan root mean squared error sebagai ukuran
keakuratan model.
Jawablah beberapa pertanyaan berikut:
a) Deskripsikan data angka harapan hidup dari setiap negara tersebut! Bagaimana anda menjelaskan posisi angka
harapan hidup di Indonesia?
b) Berdasarkan hasil regresi yang diperoleh, metode manakah yang paling akurat untuk memprediksi angka harapan
hidup?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi angka harapan hidup pada
model terpilih? Apa yang menjadi tolak ukurnya?
Tree-Based Regression for life expectancy. Tujuan dari projek ini adalah untuk memodelkan angka harapan hidup di
suatu negara menggunakan beberapa prediktor. Metode machine learning yang digunakan adalah:
1. Decision tree regression
2. Random forests regression
3. Gradient boosting regression
4. XGBoost regression
Pilih atribut “Life expectancy” sebagai variabel respon yang akan diprediksi, lalu pilih semua (atau sebagian) atribut
lainnya sebagai variabel penjelas. Dari 195 negara, pilih 75% dari data tersebut secara acak sebagai data training, lalu
gunakan sisanya sebagai data testing. Hati-hati dalam memilih data training secara acak, gunakan random generator
dengan seed tertentu sehingga pengacakan tidak berubah-ubah. Gunakan root mean squared error sebagai ukuran
keakuratan model.
a) Deskripsikan data angka harapan hidup dari setiap negara tersebut! Bagaimana anda menjelaskan posisi angka
harapan hidup di Indonesia?
b) Berdasarkan hasil regresi yang diperoleh, metode manakah yang paling akurat untuk memprediksi angka harapan
hidup?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi angka harapan hidup pada
model terpilih? Apa yang menjadi tolak ukurnya?
Machine Learning-Based Classification for BMI. Tujuan dari projek ini adalah untuk mengklasifikasikan BMI
berdasarkan gender, tinggi dan berat badan. Metode machine learning yang digunakan adalah:
1. k Nearest Neighbor
2. Random Forest
2. Support Vector Machine
Pilih atribut “Index” sebagai variabel respon yang akan diprediksi, lalu pilih atribut lainnya sebagai variabel penjelas.
Pilih 75% dari data tersebut secara acak sebagai data training, lalu gunakan sisanya sebagai data testing. Hati-hati dalam
memilih data training secara acak, gunakan random generator dengan seed tertentu sehingga pengacakan tidak
berubah-ubah. Gunakan root mean squared error sebagai ukuran keakuratan model.
a) Deskripsikan data tinggi badan, berat badan, dan BMI! Bagaimana korelasi antara tinggi dan berat badan terhadap
BMI?
b) Berdasarkan hasil klasifikasi yang diperoleh, metode manakah yang paling akurat untuk memprediksi BMI?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi BMI pada model terpilih?
Apa yang menjadi tolak ukurnya?
Tree-Based Classification for BMI. Tujuan dari projek ini adalah untuk mengklasifikasikan BMI berdasarkan gender,
tinggi dan berat badan. Metode machine learning yang digunakan adalah:
1. Decision tree regression
2. Random forests regression
3. Gradient boosting regression
4. XGBoost regression
Pilih atribut “Index” sebagai variabel respon yang akan diprediksi, lalu pilih atribut lainnya sebagai variabel penjelas.
Pilih 75% dari data tersebut secara acak sebagai data training, lalu gunakan sisanya sebagai data testing. Hati-hati dalam
memilih data training secara acak, gunakan random generator dengan seed tertentu sehingga pengacakan tidak
berubah-ubah. Gunakan root mean squared error sebagai ukuran keakuratan model.
a) Deskripsikan data tinggi badan, berat badan, dan BMI! Bagaimana korelasi antara tinggi dan berat badan terhadap
BMI?
b) Berdasarkan hasil klasifikasi yang diperoleh, metode manakah yang paling akurat untuk memprediksi BMI?
c) Dari seluruh prediktor (variabel penjelas), variabel manakah yang paling mempengaruhi BMI pada model terpilih?
Apa yang menjadi tolak ukurnya?
- Selamat Mengerjakan -

Tugas 231017 172401

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas 231017 172401

Diunggah oleh

Hak Cipta:

Format Tersedia

Instruksi:

1. Setiap kelompok memilih satu problem untuk dikerjakan.

Anda mungkin juga menyukai