Anda di halaman 1dari 39

LAPORAN PROYEK ASSOCIATE DATA

SCIENCE
Studi Kasus 1: Prediksi Harga Mobil

112202006398@mhs.dinus.ac.id 1/10/23 Data Mining


LAPORAN PROYEK ASSOCIATE DATA SCIENCE

STUDI KASUS 1: PREDIKSI Harga Mobil

Disusun Oleh:

1. Adenta Valenthariq Aswan (A12.2020.06398)

i
Daftar isi
1 Deskripsi Project ................................................................................................... 1

2 Penyiapan Data (J.62DMI00.004.1) ..................................................................... 1

2.1 Hasil Telaah Data (J.62DMI00.005.1) ........................................................... 2

2.1.1 Analisis karakteristik Data ...................................................................... 3

2.1.2 Hasil analisis karakteristik data ............................................................. 14

2.1.3 Identifikasi Data Pencilan (Outlier) ...................................................... 18

2.2 Hasil Validasi Data (J.62DMI00.006.1) ....................................................... 19

2.3 Hasil Penentuan Object Data (J.62DMI00.007.1) ........................................ 19

2.4 Hasil Membersihkan Data (J.62DMI00.008.1) ............................................ 20

2.5 Hasil Mengkonstruksi Data (J.62DMI00.009.1) .......................................... 26

2.6 Menentukan Label Data (J.62DMI00.010.1) ............................................... 28

3 Pemodelan ........................................................................................................... 29

3.1 MEMBANGUN SKENARIO MODEL (J.62DMI00.012.1) ....................... 29

3.2 MEMBANGUN MODEL (J.62DMI00.013.1) ............................................ 29

3.2.1 Menyiapkan Parameter Model .............................................................. 29

3.2.2 Menggunakan Tools Pemodelan ........................................................... 31

3.3 MENGEVALUASI HASIL PEMODELAN (J.62DMI00.014.1) ................ 33

3.3.1 Menggunakan model data Real ............................................................. 33

3.3.2 Menilai hasil Pemodelan ....................................................................... 34

3.3.3 Link ....................................................................................................... 35

ii
Daftar Gambar

Gambar 1 import data................................................................................................... 2


1 Deskripsi Project
Sebuah perusahaan mobil Cina Geely Auto bercita-cita untuk memasuki pasar AS
dengan mendirikan unit manufaktur mereka di sana dan memproduksi mobil secara
lokal untuk bersaing dengan rekan-rekan mereka di AS dan Eropa. Mereka telah
mengontrak perusahaan konsultan mobil untuk memahami faktor-faktor yang
menentukan harga mobil. Secara khusus, mereka ingin memahami faktor-faktor yang
mempengaruhi harga mobil di pasar Amerika, karena mungkin sangat berbeda dengan
pasar China. Perusahaan ingin mengetahui:

• Variabel mana yang signifikan dalam memprediksi harga mobil


• Seberapa baik variabel tersebut menggambarkan harga sebuah mobil

Berdasarkan berbagai survei pasar, perusahaan konsultan tersebut telah mengumpulkan


kumpulan data besar dari berbagai jenis mobil di seluruh pasar Amerika.

Kita diminta untuk memodelkan harga mobil dengan variabel bebas yang tersedia. Ini
akan digunakan oleh manajemen untuk memahami bagaimana tepatnya harga
bervariasi dengan variabel independen. Dengan demikian, mereka dapat memanipulasi
desain mobil, strategi bisnis, dll. untuk memenuhi tingkat harga tertentu. Selanjutnya,
model tersebut akan menjadi cara yang baik bagi manajemen untuk memahami
dinamika penetapan harga pasar baru.

2 Penyiapan Data (J.62DMI00.004.1)


Tahapan adalah meload data

1
Gambar 1 import data

2.1 Hasil Telaah Data (J.62DMI00.005.1)


Hasil analisis tipe dan relasi data sebagai berikut:

Terdapat 195 record, dan 52 fitur dengan deskripsi pada gambar berikut

2
2.1.1 Analisis karakteristik Data

Jika dilihat dari fitur biaya, maka banyak yang mengeluarkan dana 5K, namun juga ada
yang mengeluarkan diatas 35K

3
Jika dilihat dari fitur symbolling, maka rating asuransi dengan categorical (-3 berarti
aman, +3 berarti tidak aman).

Jika dilihat dari fueltype, maka kategori gas dan diesel kurang stabil.

4
Jika dilihat dari aspiration, maka kategori std dan turbo kurang stabil.

Jika dilihat dari doornumber, maka kategori two dan four cukup stabil.

Jika dilihat dari carbody, maka kategori terbanyak pada hatchback dan sedan.

5
Jika dilihat dari drivewheel, maka kategori terbanyak pada fwd.

Jika dilihat dari enginelocatio, maka kategori terbanyak pada Rear.

6
Jika dilihat dari wheelbase, maka kategori terbanyak pada 95.

Jika dilihat dari carlenght, maka kategori terbanyak pada 170.

7
Jika dilihat dari carwidth, maka kategori terbanyak pada 66.

Jika dilihat dari carheight, maka kategori terbanyak pada 54.

8
Jika dilihat dari curbweight, maka kategori terbanyak pada 2250 dan 2500.

Jika dilihat dari enginetype, maka kategori terbanyak pada ohc.

9
Jika dilihat dari cylindernumber, maka kategori terbanyak pada four.

Jika dilihat dari enginesize, maka kategori terbanyak pada 100.

10
Jika dilihat dari fuelsystem, maka kategori terbanyak pada mpfi.

Jika dilihat dari boreratio, maka kategori terbanyak pada 3.6 .

11
Jika dilihat dari stroke, maka kategori terbanyak pada 3.5 .

Jika dilihat dari compressionratio, maka kategori terbanyak pada 10.

12
Jika dilihat dari horsepower, maka kategori terbanyak pada 50.

Jika dilihat dari peak rpm, maka kategori terbanyaknya pada 5500.

13
Jika dilihat dari citympg, maka kategori terbanyak pada 25.

Jika dilihat dari highwaympg, maka kategori terbanyak pada 30.

2.1.2 Hasil analisis karakteristik data


Fitur Hasil analisis karakteristik data Tindak lanjut
Price • Type: real • Digunakan sebagai
• Pola distribusi data: - variable dependent
• Missing value: 0
Car_ID • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent

14
Fitur Hasil analisis karakteristik data Tindak lanjut
• Missing value: 0
Symboling • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value:0
CarName • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
fueltype • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Ubah tipe data
menjadi numerik
aspiration • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value:0 • Dirubah dalam bentuk
numerik
Doornumber • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Carbody • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Drivewheel • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik

15
Fitur Hasil analisis karakteristik data Tindak lanjut
Enginelocation • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Wheelbase • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Carlength • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Carwidth • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Carheight • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Curbweight • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Enginetype • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Cylindernumber • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik

16
Fitur Hasil analisis karakteristik data Tindak lanjut

Enginesize • Type: integer • Digunakan sebagai


• Pola distribusi data: - variable independent
• Missing value: 0
Fuelsystem • Type: nominal • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0 • Dirubah dalam bentuk
numerik
Boreratio • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Stroke • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Compressionratio • Type: real • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Horsepower • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Peakrpm • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0
Citympg • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0

17
Fitur Hasil analisis karakteristik data Tindak lanjut
Highwaympg • Type: integer • Digunakan sebagai
• Pola distribusi data: - variable independent
• Missing value: 0

2.1.3 Identifikasi Data Pencilan (Outlier)


Pada tahap awal ini, dicek outlier. Akan dilakukan cek outlier setelah semua fitur
ditransformasikan dan diperbaiki

Berdasarkan hasil telaah data, maka hipotesis disusun dengan menggunakan atribut
price sebagai fitur target dan fitur predictor meliputi:

• Car_ID
• Symboling
• CarName
• Fueltype
• Aspiration
• Doornumber
• Carbody

18
• Drivewheel
• Enginelocation
• Carlength
• Carwidth
• Carheight
• Carweight
• Enginetype
• Cylindernumber
• Enginesize
• Fuelsystem
• Boreratio
• Stroke
• Compressionratio
• Horsepower
• Peakrpm
• Citympg
• Highwaympg

2.2 Hasil Validasi Data (J.62DMI00.006.1)


Berdasarkan hasil telaah data pada poin 2.1, maka dapat disimpulkan sebagai berikut:

• Penilaian kualitas data sesuai dengan tujuan teknis data science, dengan sajian
sebagaimana hasil analisis karakteristik data
• Penilaian tingkat kecukupan data sesuai dengan tujuan teknis data science,
dengan sajian sebagaimana hasil analisis karakteristik data

2.3 Hasil Penentuan Object Data (J.62DMI00.007.1)


Fitur/Atribut Jenis Keterangan
Price Label real (5118 - 45400)
Symboling Atribut categorical (-3 berarti aman, +3 berarti tidak aman)

19
Fueltype Atribut gas atau diesel
Aspiration Atribut standard atau turbo
Doornumber Atribut four or two
Carbody Atribut convertible, hatchback, sedan, wagon, hardtop
Drivewheel Atribut rwd, fwd, 4wd
Enginelocation Atribut rear, front
Wheelbase Atribut real (86.600 – 120.900)
Carlength Atribut real (141.100 – 208.100)
Carwidth Atribut real (60.300 – 72.300)
Carheight Atribut real (47.800 – 59.800)
Curbweight Atribut integer (1488 - 4066)
Enginetype Atribut categorical (dohc, ohcv, ohc, l, rotor, ohcf, dohcv)
Cylindernumber Atribut categorical (four, six, five, three, twelve, two, eight)
Enginesize Atribut integer (61 - 326)
Fuelsystem Atribut categorical (mpfi, 2bbl, mfi, 1bbl, spfi, 4bbl, idi,
spdi)
Boreratio Atribut (2.540 – 3.940)
Stroke Atribut real (2.070 – 4.170)
Compressionratio Atribut real (7 - 23)
Horsepower Atribut integer (48 - 288)
Peakrpm Atribut integer (4150 - 6600)
Citympg Atribut integer (13-49)
Highwaympg Atribut integer (16 - 54)

2.4 Hasil Membersihkan Data (J.62DMI00.008.1)


Berdasarkan telaah data, tidak terdapat missing value.

20
Selanjutnya dilakukan pembersihan data yang kotor. karena banyak fitur yang tipe data
masih dalam bentuk nominal, maka perlu dilakukan konversi tipe fitur menjadi
numerik antara lain

fitur Awal Hasil transformasi


carname Nominal Dapat dihapus
fueltype Nominal Numerik
1: gas
0: diesel
aspiration Nominal Numerik
1: standard
0: turbo
doornumber Nominal Numerik
1: four
0: two
carbody Nominal Numerik

21
fitur Awal Hasil transformasi
Carbody = convertible
Carbody = hatchback
Carbody = sedan
Carbody = wagon
Carbody = hardtop
drivewheel Nominal Numerik
Drivewheel = rwd
Drivewheel = fwd
Drivewheel = 4wd
enginelocation Nominal Numerik
1 = rear
0 = front
enginetype Nominal Numerik
Enginetype = dohc
Enginetype = ohcv
Enginetype = ohc
Enginetype = 1
Enginetype = rotor
Enginetype = ohcf
Enginetype = eight
Cylindernumber Nominal Numerik
cylindernumber = four
cylindernumber = six
cylindernumber = five
cylindernumber = three
cylindernumber = twelve
cylindernumber = two
cylindernumber = eight

22
fitur Awal Hasil transformasi
fuelsystem Nominal Numerik
Fuelsystem = mpfi
Fuelsystem = 2bbl
Fuelsystem = mfi
Fuelsystem = 1bbl
Fuelsystem = spfi
Fuelsystem = 4bbl
Fuelsystem = idi
Fuelsystem = spdi

Pada tahap ini, kami merubah fueltype, aspiration, doornumber, dan enginelocation
menjadi unique integer. Alasannya karena hanya ada 2 isian, missal gas or diesel. Jika
menggunakan dummy encoding (gas = no dan diesel = yes), maka jika terpilih yes
(fueltype = yes menjadi 1), maka pasti fitur fueltype = no menjadi 0.

23
Merubah lokasi menjadi one hot encoding (dummy coding)

24
25
Maka menghasilkan data sebagai berikut:

Setelah data berhasil menjadi numerik semua, tahap berikutnya

2.5 Hasil Mengkonstruksi Data (J.62DMI00.009.1)


Konstruksi data dilakukan dengan menentukan fitur, dan merekonstruksi data.
Ilustrasinya sebagai berikut:

Perlu diketahui, disini hanya lokasi yang dijadikan dummy coding. Kita akan melihat
hasil evaluasi. Hal lain yang akan kita lakukan nanti adalah mengubah dummy coding
menjadi unique integer. Apakah akan berbeda hasil evaluasinya.

Tahap berikutnya adalah mengecek Kembali record yang menjadi outlier.

26
27
Dari sini dihasilkan record yang terpilih menjadi 1333 records

2.6 Menentukan Label Data (J.62DMI00.010.1)


Untuk menentukan label data, kita dapat menggunakan set role dengan konfigurasi
sebagai berikut:

28
3 Pemodelan
3.1 MEMBANGUN SKENARIO MODEL (J.62DMI00.012.1)
• Teknik pemodelan yang dimungkinkan dengan karakteristik data yaitu Model
Regresi Linier. Alasannya karena kita akan mengukur prediksi dari dataset nilai
dan semua atribut memiliki tipe data numerik
• Untuk melihat korelasi antar variabel menggunakan correlation matrix dan
untuk evaluasi menggunakan RMSE, MAE

3.2 MEMBANGUN MODEL (J.62DMI00.013.1)


3.2.1 Menyiapkan Parameter Model
Memilih atribut dengan melihat tipe numerik dari tiap variable dan melakukan korelasi
fitur.

29
30
Dilihat dari korelasi, ada korelasi kuat antara model dan harga mobil. Namun demikian,
kita akan mencoba menggunakan semua fitur yang diperlukan.

3.2.2 Menggunakan Tools Pemodelan


Pemodelan menggunakan rapidminer dan algoritma regresi linier untuk menguji data
testing. Berikut rangkaian pemodelan yang dilakukan

Memasukkan beberapa fitur menjadi block preprocesing

Menjadi

31
Untuk split data, dibagi menjadi 0.9 untuk training dengan 0.1 untuk testing, lalu untuk
performance memilih RMSE

32
3.3 MENGEVALUASI HASIL PEMODELAN (J.62DMI00.014.1)
3.3.1 Menggunakan model data Real
Dari <90:10> -> feature selection Linear Regression T-Test

Dari gambar didapatkan garis regresi dari model yang dicari yaitu:

Y = - 782.480 * carbody = wagon


- 2607.619 * drivewheel = 4wd
- 5694.050 * enginetype = ohcv
+ 3978.497 * enginetype = ohc
+ 4016.050 * enginetype = l
+ 3446.127 * enginetype = ohcf

33
- 9113.774 * enginetype = dohcv
- 6087.662 * cylindernumber = four
+ 8031.894 * cylindernumber = six
+ 637.230 * cylindernumber = five
- 8597.765 * cylindernumber = three
+ 27635.557 * cylindernumber = eight
- 3969.615 * fuelsystem = 2bbl
- 4624.704 * fuelsystem = 1bbl
+ 8302.930 * fuelsystem = idi
- 4748.503 * fuelsystem = spdi
+ 8302.930 * fueltype
+ 3192.204 * aspiration
+ 409.791 * carheight
- 2187.383 * stroke
- 1316.219 * compressionratio
+ 1.717 * peakrpm
+ 2277.591

3.3.2 Menilai hasil Pemodelan


Evaluasi pemodelan dilakukan dengan Root Mean Square Error (RMSE) hasilnya
sebagai berikut:

1 <90:10> -> feature selection Linear Regression M5 Prime


root_mean_squared_error: 1999.098+/- 0.000
absolute_error: 1473.385 +/- 1351.121
correlation: 0.955
2 <90:10> -> feature selection Linear Regression T-test
root_mean_squared_error: 2086.255 +/- 0.000
absolute_error: 1584.764 +/- 1356.828
correlation: 0.948

34
2 <90:10> -> tidak pakai feature selection
root_mean_squared_error: 1996.636 +/- 0.000
absolute_error: 1472.096 +/- 1348.885
correlation: 0.974
3 <90:10> -> tidak pakai remove outlier
root_mean_squared_error: 5705.757 +/- 0.000
absolute_error: 4663.637 +/- 3287.272
correlation: 0.756

Yang terbaik ada di kondisi 2

berarti RMSE terbaik ada di 1996.636 +/- 0.000

3.3.3 Link
https://drive.google.com/file/d/1wnncGNMAxvZGxe4sVDixZioQnDonod6N/view?u
sp=sharing

35

Anda mungkin juga menyukai