Anda di halaman 1dari 5

SISTEM KLASIFIKASI TINGKAT PENERIMAAN KONSUMEN TERHADAP

KENDARAAN RODA EMPAT MENGGUNAKAN METODE RANDOM FOREST


Muthia Deliana
(1608107010028)

Jurusan Informatika, Universitas Syiah Kuala


Jl. Tgk. Hasan Krueng Kalee, Aceh 23111
deliana@mhs.unsyiah.ac.id

ABSTRAK

Untuk mengklasifikasi mobil tidaklah mudah, karena suatu pilihan memiliki kelebihan dan kekurangan
masing-masing. Jurnal ini membahas mengenai keputusan untuk memilih alternatif mobil yang terbaik.
Saat ini tidak dapat dipungkiri bahwa persaingan pasar industri mobil di berbagai belahan dunia sangat
ketat. Selama ini kemungkinan besar pilihan lebih banyak ditentukan oleh subyektifitas dalam
pengambilan keputusan, yang cenderung mempertimbangkan keterbatasan kognitif manusia. Untuk
membantu mengurangi masalah tersebut, maka dibuat sebuah sistem untuk mengklasifikasi faktor yang
mempengaruhi permasalahan tingkat penerimaan mobil oleh pihak konsumen. Faktor-faktor yang
digunakan dalam sistem sebagai variabel yang mempengaruhi tingkat penerimaan konsumen terdiri dari
harga pembelian, biaya perawatan, jumlah pintu, kapasitas penumpang, ukuran bagasi, dan taksiran
keselamatan penumpang. Sistem pengklasifikasi variabel ini dibangun dengan menerapkan metode
Random Forest (RF). Hasil dari sistem klasifikasi yang dibangun dapat dijadikan pertimbangan bagi
produsen mobil di masa mendatang, sehingga produksi mobil menjadi lebih efektif, dapat
meminimalisir kerugian, dan meningkatkan profitabilitas produsen.

A. PENDAHULUAN utama Asia Tenggara yang tumbuh 8 persen,


Mobil adalah salah satu alat dengan total pencapaian 276.000 unit.
transportasi darat yang penting pada saat Indonesia menjadi yang terbesar di Asia
sekarang ini. Memiliki mobil bagi sebagian Tenggara, dengan penjualan naik 6 persen
besar kalangan masyarakat pada saat ini menjadi 96.000 unit.
bagaikan suatu hal yang pokok dimana dapat Terdapat banyak faktor yang
membantu mereka dalam beraktivitas mempengaruhi tingkat penerimaan pada
khususnya dalam bekerja. Oleh karena itu, para konsumen, begitu pula pada perusahaan mobil.
produsen mobil berlomba – lomba untuk Tingkat akurasi prediksi terhadap diterima atau
menciptakan mobil dengan keunggulan dan tidaknya suatu produk tentu saja sangat
kelebihan yang berbeda sehingga dipasaran diperhitungkan oleh perusahaan, karena akan
jumlah mobil ini sangat banyak dan bervariasi. berpengaruh besar pada profitabilitas
Disamping adanya beragam pilihan tersebut, perusahaan tersebut.
para konsumen juga dihadapkan dengan Makalah ini dibuat dengan
banyaknya kriteria yang berpengaruh dalam menggunakan metode Random Forest dalam
menentukan pilihan mobil misalnya harga, rangka untuk mengklasifikasikan faktor-faktor
warna, keamanan dan kelengkapan, desain dan yang mempengaruhi tingkat penerimaan
lain – lain. konsumen terhadap kendaraan roda empat
Mobil inilah yang saat ini sangat dimana metode yang digunakan untuk
diminati oleh masyarakat Indonesia, didorong mengklasifikasi data ini berkaitan erat dengan
dengan penjualan mobil baru di enam negara data mining.
B. TINJAUAN PUSTAKA 3. Random Forest
1. Mobil Random forest (RF) adalah
Mobil adalah kendaraan darat yang suatu algoritma yang digunakan pada
digerakkan oleh tenaga mesin, beroda empat klasifikasi data dalam jumlah yang besar.
atau lebih yang biasanya menggunakan bahan Klasifikasi random forest dilakukan melalui
bakar minyak untuk menghidupkan mesinnya. penggabungan pohon (tree) dengan
Dalam Peraturan Pemerintah Republik melakukan training pada sampel data yang
Indonesia Nomor 44 Tahun 1993: dimiliki. Penggunaan pohon (tree) yang
a. Kendaraan bermotor adalah setiap semakin banyak akan mempengaruhi akurasi
kendaraan yang digerakkan oleh yang akan didapatkan menjadi lebih baik.
peralatan mekanik berupa mesin selain Penentuan klasifikasi dengan random
kendaraan yang berjalan diatas rel. forest diambil berdasarkan
b. Mobil penumpang adalah kendaraan hasil voting dari tree yang terbentuk.
bermotor beroda empat yang Pemenang dari tree yang terbentuk ditentukan
dilengkapi sebanyak-banyaknya 8 dengan vote terbanyak.
(delapan) tempat duduk, tidak Keuntungan penggunaan random
termasuk tempat duduk pengemudi forest yaitu mampu mengklasifiksi data yang
baik dengan maupun tanpa memiliki atribut yang tidak lengkap, dapat
perlengkapan pengangkutan bagasi. digunakan untuk klasifikasi dan regresi akan
tetapi tidak terlalu bagus untuk regresi, lebih
cocok untuk pengklasifikasian data serta dapat
2. Data Mining digunakan untuk menangani data sampel yang
Data mining adalah proses mencari banyak.
pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau
metode tertentu. Interpretation/Evaluation C. METODE PENELITIAN
Pola informasi yang dihasilkan dari proses Penelitian ini menggunakan metode
data mining diterjemahkan menjadi bentuk Random Forest. Metode Random Forest
yang lebih mudah dimengerti oleh pihak merupakan algoritma klasifikasi yang efektif
yang berkepentingan. Data mining yang digunakan dalam klasifikasi tingkat
merupakan sebuah proses, sehingga dalam penerimaan konsumen terhadap kendaraan roda
melakukan proses tersebut harus sesuai empat. Pada penelitian ini data yang digunakan
dengan prosedur yaitu yang disebut dengan adalah data evaluasi kendaraan roda empat
CRISP-DM (Cross-Industry Standard yang didapat dari Machine Learning Repository
Process for Data Mining) yaitu sebagai UCI (Universitas California Invene) dengan
keseluruhan proses, preprocessing data, alamat web: http://archive.ics.uci.edu/ml/.
pembentukan model, model evaluasi dan Dalam penelitian ini akan dilakukan beberapa
akhirnya penyebaran model (Larose, langkah-langkah atau tahapan penelitian seperti
2005). Enam fase tahapan Crisp menurut gambar di bawah ini:
(Larose, 2005): 1. Pengumpulan Data
1. Fase pemahaman bisnis Teknik pengumpulan data ialah teknik atau
2. Fase pemahaman data cara-cara yang dapat digunakan untuk
3. Fase pengolahan data menggunakan data (Riduwan, 2008). Dalam
4. Fase pemodelam pengumpulan data terdapat sumber data,
5. Fase evaluasi sumber data yang dihimpun langsung oleh
6. Fase penyebaran peneliti disebut dengan sumber primer,
sedangkan apabila melalui tangan kedua
disebut sumber sekunder (Riduwan, 2008).
Data pada penelitian ini merupakan data yang dimana node ini mempunyai output minimal
diperoleh dari Machine Learning Repository dua dan hanya ada satu input. Sedangkan leaf
UCI (Universitas California, Invene) dengan node atau terminal node merupakan simpul
alamat website terakhir yang hanya memiliki satu input dan
https://archive.ics.uci.edu/ml/datasets/Car+Ev tidak mempunyai output. Pohon keputusan
aluation. Adapun data yang terkumpul dimulai dengan cara menghitung nilai entropy
sebanyak 1728 data dimana terdapat 7 variabel. sebagai penentu tingkat ketidakmurnian atribut
Setiap variabel memiliki kelas masing-masing, dan nilai information gain. Untuk menghitung
dimana setiap kelas memiliki batasan nilai entropy digunakan rumus seperti pada
tersendiri. persamaan 1, sedangkan nilai information gain
menggunakan persamaan 2.
2. Pembersihan Data
Pengolahan Data Awal Untuk
mendapatkan data yang berkualitas, beberapa
teknik yang dilakukan adalah sebagai berikut Dimana Y adalah himpunan kasus dan p(c|Y)
merupakan proporsi nilai Y terhadap kelas c.
(Vecellis, 2009):
a. Data validation, untuk mengidentifikasi dan
menghapus data yang ganjil (outlier/noise),
data yang tidak konsisten, dan data yang tidak
lengkap (missing value).
Dimana Values(a) merupakan semua nilai yang
b. Data integration and transformation, untuk
mungkin dalam himpunan kasus a. Yv adalah
meningkatkan akurasi dan efisiensi algoritma.
subkelas dari Y dengan kelas v yang
Data yang digunakan dalam penelitian ini
berhubungan dengan kelas a. Ya adalah semua
bernilai kategorikal.
nilai yang sesuai dengan a.
c. Data size reduction and dicritization, untuk
memperoleh dataset dengan jumlah atribut dan
record yang lebih sedikit tetapi bersifat
4. Implementasi dan Pengujian
informatif.
Proses eksperimen yang penulis lakukan
Dari proses pengolahan awal data di atas
inin menggunakan Weka 3.8 untuk pengujian
diperoleh sebanyak 1728 data dengan 1210 data
model dilakukan menggunakan dataset Car-
dengan kelas “unacc”, 384 data dengan kelas
Evaluation dari UCI Machine Learning
“acc”, 69 data dengan kelas “good” dan 65 data
Repository. Tahapan pengujian untuk
dengan kelas “vgood”.
klasifikasi tingkat penerimaan konsumen
terhadap kendaraan roda empat sebagai berikut:
3. Penggunaan Metode Random Forest
a. Menyiapkan dataset untuk eksperimen yang
Metode Random Forest (RF) merupakan
sudah diketahui classsnya.
metode yang dapat meningkatkan hasil akurasi,
b. Mendesain arsitekstur algoritma Random
karena dalam membangkitkan simpul anak
Forest.
untuk setiap node dilakukan secara acak.
c. Melakukan traing dan testing terhadap
Metode ini digunakan untuk membangun
algortima Random Forest
pohon keputusan yang terdiri dari root node,
Nilai akurasi adalah persentase jumlah
internal node, dan leaf node dengan mengambil
record data yang diklarifikasikan dengan benar
atribut dan data secara acak sesuai ketentuan
oleh suatu algoritma klasifikasi. Perhitungan
yang diberlakukan. Root node merupakan
nilai akurasi didefinisikan dengan persamaan
simpul yang terletak paling atas, atau biasa
sebagai berikut:
disebut sebagai akar dari pohon keputusan.
Internal node adalah simpul percabangan,
5. Evaluasi dan Validasi Hasil sebesar 75% dan data testing sebesar 25%,
Validasi dilakukan dengan menggunakan sehingga data training berjumlah 1296 data
10 fold cross validation. Untuk 10 fold cross dan data testing berjumlah 432 data. Data
validation data eksperimen akan dibagi menjadi training kemudian diuji pada tool weka dengan
10 bagian. Satu bagian untuk data testing menggunakan 10 folds cross validation. Dari
Sembilan bagian lainnya untuk data training. hasil eksperimen yang dilakukan didapatkan
Sedangkan pengukuran akurasi diukur dengan hasil kecocokan data training antara hasil dari
confusion matrix yang mempresentasikan hasil metode yang diusulkan dengan menggunakan
evaluasi model dengan menggunakan tabel data kendaraan roda empat untuk diuji dan
matriks. Evaluasi dari confussion matrix akan kondisi data kendaraan roda empat
menghasilkan nilai akurasi, precission dan sebenarnya. Hasil kecocokan tersebut
recall yang akurat. kemudian dimasukkan ke dalam tabel
confusion matriks.

True True True True


unacc acc good Vgood
Pred. 863 31 2 0
unacc
Pred. 21 270 5 5
acc
TABEL 1: MATRIK CONFUSSION Pred. 0 15 24 8
good
Pred. 0 6 1 45
vgood
D. HASIL DAN PEMBAHASAN TABEL 2: CONFUSSION MATRIK KLASIFIKASI
1. Pengolahan Data RODA EMPAT
Berdasarkan data yang ada, maka Akurasi menyatakan bahwa nilai rasio
setelah dilakukan pengujian data dimana data jumlah data kendaraan yang diklasifikasi di
terdiri dari atribut yaitu: kelas secara benar (true positive) dan jumlah
1. Data Training dan Data Testing dari data yang terklasifikasi di kelas yang
a) Buying / Harga Mobil sebaliknya (true negative) dengan seluruh data
b) Maintenance kendaraan mobil diklasifikasikan.
c) Doors / Pintu
d) Persons / Muatan Orang 1. Menghitung Akurasi, Nilai akurasi adalah
e) Luggage Bot / Besar Bagasi proporsi jumlah prediksi yang benar. Dihitung
f) Safety / Keamanan menggunakan persamaan sebagai berikut:

Berikut ini adalah hasil dari pengolahan 𝑇𝑃 + 𝑇𝑁


data awal (preparation data) yaitu 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
pembersihan data dan reduksi data. Data yang
diperoleh yaitu sebesar 1728 data kendaraan 1202
mobil. Data tersebut diacak kemudian 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑥 100% = 92.74691%
1296
diperiksa apabila masih mengandung
duplikasi dan inkonsistensi data dengan cara
dilakukan replace missing. Atribut pada data Dari pengujian 1296 data uji training
yaitu berjenis kategorial. menggunakan metode Random Forest
Langkah berikutnya ialah membagi data didapatkan akurasi sebesar 92.74%. Hal ini
ke dalam dua bagian yaitu data training menunjukkan bahwa penggunaan Random
Forestdapat digunakan sebagai sistem
klasifikasi tingkat penerimaan konsumen G. DAFTAR PUSTAKA
terhadap kendaraan roda empat.
[1] E. Prasetyo, DATA MINING - Mengolah
Data Menjadi Informasi Menggunakan Matlab,
E. KESIMPULAN Yogyakarta: ANDI, 2014.
Berdasarkan dari hasil eksperimen [2]. Dewi, N.K., U.D. Syafitri, and S.Y.
penelitian sistem klasifikasi tingkat penerimaan Mulyadi, Penerapan Metode Random Forest
konsumen terhadap kendaraan roda empat dalam Driver Analysis. Indonesian Journal of
dengan menggunakan metode Random Forest Statistics, 2011. 16(1): p. 35-43.
sehingga dapat disimpulkan beberapa hal [3]. K. dan E. T. Luthfi, Algoritma Data
sebagai berikut: Mining, Yogyakarta: Penerbit Andi, 2009.
1. Dari hasil pengujian menunjukkan bahwa [4]. Zhou, L. and H. Wang, Loan Default
klasifikasi kendaraan roda empat dengan Prediction on Large Imbalanced Data Using
menggunakan metode Random Forest Random Forests. TELKOMNIKA Indonesian
sehingga mendapatkan nilai akurasi sebesar Journal of Electrical Engineering, 2012. 10(6):
92.74%. p. 1519-1525.
[5]. I. H. Witten, E. Frank dan M. A. Hall, Data
2. Dari hasil penelitian dan pengujian yang
Mining Practical Machine Learning Tools and
dilakukan, maka metode yang diusulkan pada
Techniques, Burlington: Morgan Kaufmann,
sistem klasifikasi tingkat penerimaan
2011.
konsumen terhadap kendaraan roda empat
[6]. Nidhomuddin and B.W. Otok, Random
dengan menggunakan metode Random Forest
Forest dan MultivariateAdaptive Regression
dapat digunakan untuk menentukan baik dan
Spline (MARS) Binary Response untuk
buruknya kondisi kelayakan dari kendaraan
Klasifikasi Penderita HIV / AIDS di Surabaya.
roda empat serta tingkat penerimaan konsumen
Statistika, 2015. 3(1).
terhadap kendaraan roda empat.
[7]. A.Tri dan F.Tri, “Diagnosis Penyakit
Parkinson Berdasarkan Kombinasi Algoritme
F. SARAN
Data Mining dan Seleksi Fitur, ”2016.
Berdasarkan hasil pembahasan dan analisis
pada penelitian tersebut, maka peneliti
memberikan saran untuk penelitian selanjutnya
yang diharapkan bisa dijadikan dasar untuk
mengembangkan penelitian
ini yaitu:
1. Perlu adanya penelitian pada tahap
selanjutnya, yaitu dengan menggunakan
metode lain atau menggabungkan beberapa
metode sehingga diharapkan dapat
meningkatkan akurasi dengan menutup
kekurangan-kekurangan metode yang telah
digunakan sebelumnya.
2. Untuk pengembangan selanjutnya dapat
dilakukan pengujian dengan data yang
berbeda karakteristiknya misalnya tipe data
kategorikal saja atau tipe numerik saja,
sehingga pada perhitungannya pun
bervariasi.

Anda mungkin juga menyukai