Anda di halaman 1dari 4

Analisis Data Automobile Customer

Menggunakan Algoritma Naïve Bayes dan


Decision Tree
Abrarian Danara Yudhi Argibta
Program Studi Sistem Informasi, Universitas Multimedia Nusantara, Tangerang, Indonesia
abrarian.argibta@student.umn.ac.id

Abstract — Seiring dengan perkembangan jaman sejumlah calon variabel input dengan sebuah
dan semakin meningkatnya kebutuhan alat variabel target. Decision tree memadukan antara
transportasi membawa peluang bagi perusahaan eksplorasi data dan pemodelan, sehingga sangat
otomotif roda empat, yang sangat dibutuhkan oleh bagus sebagai langkah awal dalam proses
banyak khalayak publik sebagai sarana
transportasi sehari–hari yang lebih efisien dan
pemodelan bahkan ketika dijadikan sebagai model
dinamis. Saat ini banyak sekali bermunculan akhir dari beberapa teknik lain.
merek mobil dengan berbagai model, desain,
dengan pilihan kualitas dan harga yang cukup B. Permasalahan
bersaing. Bagi perusahaan yang bergerak di
bidang otomotif, kondisi ini merupakan suatu penurunan konsumen akan pembelian sebuah
peluang untuk menguasai pangsa pasar di bidang mobil dikarenakan konsumen lebih
transportasi. Strategi yang banyak dilakukan mempertimbangkan masalah harga terlebih dahulu
umumnya diarahkan pada klasifikasi tipe untuk membeli sebuah mobil. Tahun 2009 penjualan
pelanggan. Tujuan penelitian ini adalah meneliti
variabel- variabel yang mempengaruhi daya beli
dari dealer ke konsumen (retail sale) pada bulan april
pelanggan. Objek penelitian pada penelitian ini 2009 mengalami penurunan, karena sebagian
adalah JenisKelamin, Status, Umur, Lulus, Profesi, produsen cenderung menaikan harga mobil dan juga
WorkExperience, Spendingscore, FamilySize, karena penguatan nilai mata uang rupiah sehingga
Kategori, dan Segmentasi. konsumen perlu berpikir panjang untuk membeli
mobil (Kompas, 2009). Semakin berkembangnya
persaingan dalam dunia bisnis, menuntut para
I. PENDAHULUAN Automobile customer untuk menemukan suatu pola
yang dapat meningkatkan penjualan dan pemasaran
A. Konsep Decision Tree dan barang, salah satunya adalah dengan decision tree.
Hubungannya dengan Automobile Automobile customer harus mampu memanfaatkan
customer algo decision tree dengan baik agar mampu meneliti
Setiap orang tentu menginginkan sebuah produk apa saja yang laku dan tidak laku karena
pengambilan keputusan yang tepat dan efisien tak seringkali ditemui beberapa jenis kendaraan yang
terkecuali sebuah perusahaan automotive. Untuk itu tidak laku terjual. Selain itu, tren kendaraan yang
banyak sekali perusahaan yang membutuhkan suatu tengah banyak diminati oleh konsumen juga dapat
media seperti Business Intellegence guna membantu teridentifikasi sehingga masalah produk yang tidak
dalam pengambilan keputusan yang tepat. Namun, laku terjual bisa dihindari.
hal tersebut tidak akan berarti tanpa adanya konsep
decision tree. Decision tree adalah salah satu metode II. STUDI LITERATUR
klasifikasi yang paling populer, karena mudah untuk
diinterpretasi oleh manusia. Decision tree adalah A. Naïve Bayes
model prediksi menggunakan struktur pohon atau
struktur berhirarki. Konsep dari pohon keputusan Algoritma Naive Bayes merupakan sebuah
adalah mengubah data menjadi decision tree dan metode klasifikasi menggunakan metode
aturan-aturan keputusan. Manfaat utama dari probabilitas dan statistik yg dikemukakan oleh
penggunaan decision tree adalah kemampuannya ilmuwan Inggris Thomas Bayes. Algoritma Naive
untuk mem-break down proses pengambilan Bayes memprediksi peluang di masa depan
keputusan yang kompleks menjadi lebih simple, berdasarkan pengalaman di masa sebelumnya
sehingga pengambil keputusan akan lebih sehingga dikenal sebagai Teorema Bayes. Ciri
menginterpretasikan solusi dari permasalahan. utama dr Naïve Bayes Classifier ini adalah asumsi
Decision tree juga berguna untuk mengeksplorasi yg sangat kuat (naïf) akan independensi dari masing-
data, menemukan hubungan tersembunyi antara masing kondisi / kejadian. Keuntungan penggunan
adalah bahwa metode ini hanya membutuhkan menggunakan pohon keputusan untuk menyajikan
jumlah data pelatihan (training data) yang kecil informasi demografis pada pelanggan, staf
untuk menentukan estimasi parameter yg diperlukan departemen pemasaran dapat membaca dan
dalam proses pengklasifikasian. Karena yg menafsirkan representasi grafis dari data tanpa
diasumsikan sebagai variabel independent, maka memerlukan pengetahuan statistik. Data juga dapat
hanya varians dari suatu variabel dalam sebuah kelas digunakan untuk menghasilkan wawasan penting
yang dibutuhkan untuk menentukan klasifikasi, tentang probabilitas, biaya, dan alternatif untuk
bukan keseluruhan dari matriks kovarians. Tahapan berbagai strategi yang dirumuskan oleh departemen
dari proses algoritma Naive Bayes adalah: pemasaran. Manfaat lain dari decision tree adalah
Dibandingkan dengan teknik keputusan lainnya,
• Menghitung jumlah kelas / label. pohon keputusan membutuhkan sedikit usaha untuk
• Menghitung Jumlah Kasus Per Kelas persiapan data. Pengguna, bagaimanapun, perlu
• Kalikan Semua Variable Kelas memiliki informasi yang siap untuk membuat
• Bandingkan Hasil Per Kelas variabel baru dengan kekuatan untuk memprediksi
variabel target. Mereka juga dapat membuat
Kelebihan & Kekurangan Naive Bayes: klasifikasi data tanpa harus menghitung perhitungan
Kelebihan: yang rumit. Untuk situasi yang kompleks, pengguna
dapat menggabungkan pohon keputusan dengan
• Mudah untuk dibuat metode lain. Keuntungan lain dari pohon keputusan
• Hasil bagus adalah, setelah variabel dibuat, pembersihan data
Kekurangan: lebih sedikit diperlukan. Kasus nilai yang hilang dan
outlier kurang signifikan pada data pohon keputusan
• Asumsi independence antar atribut
Kekurangan decision tree adalah sifatnya yang
membuat akurasi berkurang (karena
tidak stabil, Salah satu keterbatasan pohon
biasanya ada keterkaitan)
keputusan adalah bahwa mereka sebagian besar
tidak stabil dibandingkan dengan prediktor
B. Decision Tree
keputusan lainnya. Perubahan kecil pada data dapat
menghasilkan perubahan besar dalam struktur
Decision tree adalah alat pendukung dengan
pohon keputusan, yang dapat menyampaikan hasil
struktur seperti pohon yang memodelkan
yang berbeda dari apa yang akan diperoleh
kemungkinan hasil, biaya sumber daya, utilitas, dan
pengguna dalam peristiwa normal. Perubahan hasil
kemungkinan konsekuensi. Decision tree
yang dihasilkan dapat dikelola oleh algoritme
menyediakan cara untuk menyajikan algoritma
pembelajaran mesin, seperti boosting dan bagging.
dengan pernyataan kontrol bersyarat. Mereka
Selain itu, decision tree kurang efektif dalam
termasuk cabang yang mewakili langkah-langkah
membuat prediksi ketika tujuan utamanya adalah
pengambilan keputusan yang dapat mengarah pada
untuk memprediksi hasil dari variabel kontinu. Ini
hasil yang menguntungkan. Struktur flowchart
karena pohon keputusan cenderung kehilangan
mencakup node internal yang mewakili tes atau
informasi saat mengkategorikan variabel ke dalam
atribut pada setiap tahap. Setiap cabang mewakili
beberapa kategori.
hasil untuk atribut, sedangkan jalur dari daun ke akar
mewakili aturan untuk klasifikasi. Decision tree
III. METODOLOGI PENELITIAN
merupakan salah satu bentuk algoritma
pembelajaran terbaik berdasarkan berbagai metode
A. Objek penelitian
pembelajaran. Mereka meningkatkan model
prediktif dengan akurasi, kemudahan dalam
Objek penelitian ini berfokus pada praktik
interpretasi, dan stabilitas. Alat ini juga efektif
dalam menyesuaikan hubungan non-linier karena pembagian basis pelanggan menjadi kelompok-
kelompok individu yang serupa dalam cara-cara
mampu memecahkan tantangan penyesuaian data,
tertentu yang relevan dengan pemasaran, seperti
seperti regresi dan klasifikasi. Disebut deecision tree
usia, jenis kelamin, minat, dan kebiasaan belanja.
atau pohon keputusan karena pilihannya bercabang,
membentuk struktur yang terlihat seperti pohon.
B. Metode Pengumpulan Data
Decision tree adalah bentuk implementasi dari
metode klasifikasi yang paling banyak digunakan.
Dalam metode ini, data-data yang ada dapat Data yang digunakan untuk penelitian bukan
merupakan data primer karena tidak berasal dari
dikelompokkan dan dimodelkan menjadi sebuah
hasil survey ataupun metode pengumpulan data
pohon keputusan, sehingga menjadi lebih mudah
lainnya yang mengharuskan peneliti untuk terlibat
untuk dimengerti. Salah satu keuntungan dari pohon
dalam proses pengumpulan data secara aktual. Data
keputusan adalah outputnya mudah dibaca dan
yang dimanfaatkan dalam penelitian ini adalah data
diinterpretasikan, bahkan tanpa memerlukan
sekunder, yaitu data yang telah dikumpulkan oleh
pengetahuan statistik. Misalnya, ketika
pihak lain sebelumnya. Pengumpulan data primer efisien, alasan berikutnya adalah karena Beberapa
tidak dapat dilakukan atas dasar suatu pertimbangan, variabel pada data berbentuk kategorikal.
yaitu keterbatasan jangkauan dan kemampuan untuk
mengumpulkan data penjualan perusahaan tertentu Kemudian pada metode penelitian kali ini, kami
secara mandiri dalam jangka waktu yang relative menggunakan decision tree karena manfaat utama
singkat. dari penggunaan decision tree adalah
kemampuannya untuk mem-break down proses
Data sekunder yang terkumpul diunduh dari situs pengambilan keputusan yang kompleks menjadi
kaggle. Kaggle adalah suatu situs/platform yang lebih simple, sehingga pengambil keputusan akan
mengadakan perlombaan-perlombaan dalam bidang lebih menginterpretasikan solusi dari permasalahan.
Data Science. Selain itu, situs ini juga menjadi salah
satu sumber pembelajaran Data Science yang
umum. Oleh karena itu, untuk mendukung para IV. ANALISIS DATA DAN DISKUSI
peneliti kaggle menyediakan beragam dataset
dengan berbagai variasi data yang dapat digunakan
untuk mengadakan penelitian dengan topik yang A. Identifikasi
menarik tanpa mengalami kesulitan dalam proses
pengumpulan data. Data yang akan digunakan adalah data sekunder
yang dapat diambil dari situs web data koleksi,
C. Metode Penelitian (Automobile Customer | Kaggle). Data yang
digunakan saat ini adalah data Automobile
Metode penelitian adalah suatu prosedur atau tata Customer.
cara yang digunakan oleh peneliti untuk
memecahkan permasalahan yang diangkat dalam Data berisi data umum seperti customer id,
kegiatan penelitian. Dengan begitu, metode gender, age, graduated, profession, work experience,
penelitian bisa dikatakan sebagai cara utama yang spending score, family size, category, dan
digunakan peneliti untuk mencapai target tujuan dan segmentation. Kemudian, datanya menjadi
memperoleh jawaban atas permasalahan yang tertanam, diamati, diproses, dan akhirnya
diusung. Dalam penelitian ini, peneliti menghasilkan visualisasi menggunakan R.
menggunakan desain metode penelitian kuantitatif
yang didukung oleh kemampuan analisis data B. Visualisasi Data
sehingga data yang diolah dapat memiliki nilai
manfaat lebih bagi proses pengambilan keputusan 1. Visualisasi data menggunakan Boxplot
oleh pihak tertentu.

Proses pengolahan data akan dilakukan dengan


menggunakan R. R adalah bahasa pemrograman
sekaligus program komputasi yang digunakan untuk
menunjang kegiatan analisis statistika dan grafik. R
diakses menggunakan RStudio. RStudio adalah
Integrated Development Environment (IDE) untuk
R. Proses pertama adalah penginputan data, yaitu Gambar 1. Ilustrasi data dengan boxplot antara
dengan memasukkan data ke dalam R. dari data pekerjaan dengan umur
Kaggle, proses berikutnya adalah mengolah data
dengan algoritma terbaik yang kami gunakan,
algoritma tersebut adalah Naïve Bayes, Naïve Bayes
merupakan sebuah metode klasifikasi menggunakan 2.
metode probabilitas dan statistik yg dikemukakan
oleh ilmuwan Inggris Thomas Bayes. Algoritma
Naive Bayes memprediksi peluang di masa depan
berdasarkan pengalaman di masa sebelumnya
sehingga dikenal sebagai Teorema Bayes. Ciri
utama dr Naïve Bayes Classifier ini adalah asumsi
yg sangat kuat (naïf) akan independensi dari masing-
masing kondisi / kejadian.

Dari beberapa algoritma yang ada, Alasan kami


memilih Naïve Bayes adalah karena Jika ada nilai
yang hilang, maka bisa diabaikan dalam
perhitungan. Kemudian Perhitungannya cepat dan Gambar 2. Decision Tree
C. Penerapan

Gambar 6. Berdasarkan data confussion matrix

Gambar 3. Confusion Matrix and Statistics in Naïve


Bayes

Berdasarkan gambar diatas, dapat dijelaskan bahwa


Gambar7. Statistic per Class
model akurasi pertama Nilai Akurasi : 0.729 P-
Value (Acc > NIR) : < 2.2e-16
V. KESIMPULAN

Secara umum, Berdasarkan hasil analisa, class


Healthcare, lawyers, Artist, dan marketing memiliki
Gambar 4 akurasi nilai paling tinggi, berdasarkan kegiatan
analisis data Automobile Customer dengan
Nilai Akurasi : 0.7289549 Nilai akurasi tergolong menggunakan dua algoritma yang telah dijabarkan
oke, karena keragaman data cukup beragam dan pada bagian analisis hasil, maka dapat ditarik
perbandingan training:test yang bernilai 75%:25% kesimpulan bahwa algoritma decision tree lebih baik
untuk digunakan dalam menganalisis data ini karena
tingkat akurasinya yang sangat tinggi.

Para Customer Service, terutama Automobile


Customer dapat memanfaatkan hasil penelitian ini
untuk mengetahui pengelompokkan penjualan
berdasarkan jumlah data, pembeli dari golongan
pekerjaan healthcare, artist, dan lawyer. Selain itu,
seorang customer service juga dapat mempelajari
produk mana saja yang umumnya lebih banyak
dibeli.

UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada Ir.


Raymond Sunardi Oetama, M.CIS, selaku dosen
Data Analisis, Sistem Informasi program studi,
Universitas Multimedia Nusantara atas kesediaan
waktunya memberikan nasehat, bimbingan, ilmu,
Gambar 5 dan wawasannya selama studi.

Berdasarkan gambar diatas, dapat dijelaskan bahwa


model akurasi kedua Nilai Akurasi : 0.7369 P-Value
(Acc > NIR) : < 2.2e-16

Anda mungkin juga menyukai