DM - A12.2020.06398 - Adenta Valenthariq Aswan
DM - A12.2020.06398 - Adenta Valenthariq Aswan
SCIENCE
Studi Kasus 1: Prediksi Harga Mobil
Disusun Oleh:
i
Daftar isi
1 Deskripsi Project ................................................................................................... 1
3 Pemodelan ........................................................................................................... 29
ii
Daftar Gambar
Kita diminta untuk memodelkan harga mobil dengan variabel bebas yang tersedia. Ini
akan digunakan oleh manajemen untuk memahami bagaimana tepatnya harga
bervariasi dengan variabel independen. Dengan demikian, mereka dapat memanipulasi
desain mobil, strategi bisnis, dll. untuk memenuhi tingkat harga tertentu. Selanjutnya,
model tersebut akan menjadi cara yang baik bagi manajemen untuk memahami
dinamika penetapan harga pasar baru.
1
Gambar 1 import data
Terdapat 195 record, dan 52 fitur dengan deskripsi pada gambar berikut
2
2.1.1 Analisis karakteristik Data
Jika dilihat dari fitur biaya, maka banyak yang mengeluarkan dana 5K, namun juga ada
yang mengeluarkan diatas 35K
3
Jika dilihat dari fitur symbolling, maka rating asuransi dengan categorical (-3 berarti
aman, +3 berarti tidak aman).
Jika dilihat dari fueltype, maka kategori gas dan diesel kurang stabil.
4
Jika dilihat dari aspiration, maka kategori std dan turbo kurang stabil.
Jika dilihat dari doornumber, maka kategori two dan four cukup stabil.
Jika dilihat dari carbody, maka kategori terbanyak pada hatchback dan sedan.
5
Jika dilihat dari drivewheel, maka kategori terbanyak pada fwd.
6
Jika dilihat dari wheelbase, maka kategori terbanyak pada 95.
7
Jika dilihat dari carwidth, maka kategori terbanyak pada 66.
8
Jika dilihat dari curbweight, maka kategori terbanyak pada 2250 dan 2500.
9
Jika dilihat dari cylindernumber, maka kategori terbanyak pada four.
10
Jika dilihat dari fuelsystem, maka kategori terbanyak pada mpfi.
11
Jika dilihat dari stroke, maka kategori terbanyak pada 3.5 .
12
Jika dilihat dari horsepower, maka kategori terbanyak pada 50.
Jika dilihat dari peak rpm, maka kategori terbanyaknya pada 5500.
13
Jika dilihat dari citympg, maka kategori terbanyak pada 25.
14
Fitur Hasil analisis karakteristik data Tindak lanjut
• Missing value: 0
Symboling • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value:0
CarName • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
fueltype • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Ubah tipe data
menjadi numerik
aspiration • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value:0 • Dirubah dalam bentuk
numerik
Doornumber • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Carbody • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Drivewheel • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
15
Fitur Hasil analisis karakteristik data Tindak lanjut
Enginelocation • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Wheelbase • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Carlength • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Carwidth • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Carheight • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Curbweight • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Enginetype • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Cylindernumber • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
16
Fitur Hasil analisis karakteristik data Tindak lanjut
17
Fitur Hasil analisis karakteristik data Tindak lanjut
Highwaympg • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Berdasarkan hasil telaah data, maka hipotesis disusun dengan menggunakan atribut
price sebagai fitur target dan fitur predictor meliputi:
• Car_ID
• Symboling
• CarName
• Fueltype
• Aspiration
• Doornumber
• Carbody
18
• Drivewheel
• Enginelocation
• Carlength
• Carwidth
• Carheight
• Carweight
• Enginetype
• Cylindernumber
• Enginesize
• Fuelsystem
• Boreratio
• Stroke
• Compressionratio
• Horsepower
• Peakrpm
• Citympg
• Highwaympg
• Penilaian kualitas data sesuai dengan tujuan teknis data science, dengan sajian
sebagaimana hasil analisis karakteristik data
• Penilaian tingkat kecukupan data sesuai dengan tujuan teknis data science,
dengan sajian sebagaimana hasil analisis karakteristik data
19
Fueltype Atribut gas atau diesel
Aspiration Atribut standard atau turbo
Doornumber Atribut four or two
Carbody Atribut convertible, hatchback, sedan, wagon, hardtop
Drivewheel Atribut rwd, fwd, 4wd
Enginelocation Atribut rear, front
Wheelbase Atribut real (86.600 – 120.900)
Carlength Atribut real (141.100 – 208.100)
Carwidth Atribut real (60.300 – 72.300)
Carheight Atribut real (47.800 – 59.800)
Curbweight Atribut integer (1488 - 4066)
Enginetype Atribut categorical (dohc, ohcv, ohc, l, rotor, ohcf, dohcv)
Cylindernumber Atribut categorical (four, six, five, three, twelve, two, eight)
Enginesize Atribut integer (61 - 326)
Fuelsystem Atribut categorical (mpfi, 2bbl, mfi, 1bbl, spfi, 4bbl, idi,
spdi)
Boreratio Atribut (2.540 – 3.940)
Stroke Atribut real (2.070 – 4.170)
Compressionratio Atribut real (7 - 23)
Horsepower Atribut integer (48 - 288)
Peakrpm Atribut integer (4150 - 6600)
Citympg Atribut integer (13-49)
Highwaympg Atribut integer (16 - 54)
20
Selanjutnya dilakukan pembersihan data yang kotor. karena banyak fitur yang tipe data
masih dalam bentuk nominal, maka perlu dilakukan konversi tipe fitur menjadi
numerik antara lain
21
fitur Awal Hasil transformasi
Carbody = convertible
Carbody = hatchback
Carbody = sedan
Carbody = wagon
Carbody = hardtop
drivewheel Nominal Numerik
Drivewheel = rwd
Drivewheel = fwd
Drivewheel = 4wd
enginelocation Nominal Numerik
1 = rear
0 = front
enginetype Nominal Numerik
Enginetype = dohc
Enginetype = ohcv
Enginetype = ohc
Enginetype = 1
Enginetype = rotor
Enginetype = ohcf
Enginetype = eight
Cylindernumber Nominal Numerik
cylindernumber = four
cylindernumber = six
cylindernumber = five
cylindernumber = three
cylindernumber = twelve
cylindernumber = two
cylindernumber = eight
22
fitur Awal Hasil transformasi
fuelsystem Nominal Numerik
Fuelsystem = mpfi
Fuelsystem = 2bbl
Fuelsystem = mfi
Fuelsystem = 1bbl
Fuelsystem = spfi
Fuelsystem = 4bbl
Fuelsystem = idi
Fuelsystem = spdi
Pada tahap ini, kami merubah fueltype, aspiration, doornumber, dan enginelocation
menjadi unique integer. Alasannya karena hanya ada 2 isian, missal gas or diesel. Jika
menggunakan dummy encoding (gas = no dan diesel = yes), maka jika terpilih yes
(fueltype = yes menjadi 1), maka pasti fitur fueltype = no menjadi 0.
23
Merubah lokasi menjadi one hot encoding (dummy coding)
24
25
Maka menghasilkan data sebagai berikut:
Perlu diketahui, disini hanya lokasi yang dijadikan dummy coding. Kita akan melihat
hasil evaluasi. Hal lain yang akan kita lakukan nanti adalah mengubah dummy coding
menjadi unique integer. Apakah akan berbeda hasil evaluasinya.
26
27
Dari sini dihasilkan record yang terpilih menjadi 1333 records
28
3 Pemodelan
3.1 MEMBANGUN SKENARIO MODEL (J.62DMI00.012.1)
• Teknik pemodelan yang dimungkinkan dengan karakteristik data yaitu Model
Regresi Linier. Alasannya karena kita akan mengukur prediksi dari dataset nilai
dan semua atribut memiliki tipe data numerik
• Untuk melihat korelasi antar variabel menggunakan correlation matrix dan
untuk evaluasi menggunakan RMSE, MAE
29
30
Dilihat dari korelasi, ada korelasi kuat antara model dan harga mobil. Namun demikian,
kita akan mencoba menggunakan semua fitur yang diperlukan.
Menjadi
31
Untuk split data, dibagi menjadi 0.9 untuk training dengan 0.1 untuk testing, lalu untuk
performance memilih RMSE
32
3.3 MENGEVALUASI HASIL PEMODELAN (J.62DMI00.014.1)
3.3.1 Menggunakan model data Real
Dari <90:10> -> feature selection Linear Regression T-Test
Dari gambar didapatkan garis regresi dari model yang dicari yaitu:
33
- 9113.774 * enginetype = dohcv
- 6087.662 * cylindernumber = four
+ 8031.894 * cylindernumber = six
+ 637.230 * cylindernumber = five
- 8597.765 * cylindernumber = three
+ 27635.557 * cylindernumber = eight
- 3969.615 * fuelsystem = 2bbl
- 4624.704 * fuelsystem = 1bbl
+ 8302.930 * fuelsystem = idi
- 4748.503 * fuelsystem = spdi
+ 8302.930 * fueltype
+ 3192.204 * aspiration
+ 409.791 * carheight
- 2187.383 * stroke
- 1316.219 * compressionratio
+ 1.717 * peakrpm
+ 2277.591
34
2 <90:10> -> tidak pakai feature selection
root_mean_squared_error: 1996.636 +/- 0.000
absolute_error: 1472.096 +/- 1348.885
correlation: 0.974
3 <90:10> -> tidak pakai remove outlier
root_mean_squared_error: 5705.757 +/- 0.000
absolute_error: 4663.637 +/- 3287.272
correlation: 0.756
3.3.3 Link
https://drive.google.com/file/d/1wnncGNMAxvZGxe4sVDixZioQnDonod6N/view?u
sp=sharing
35