ALGORITMA C4.5 MENENTUKAN SPESIFIKASI MOBIL AMERIKA 1993

“ALGORITMA C4.
5 DALAM MENENTUKAN SPESIFIKSI MOBIL

AMERIKA DI TAHUN 1993”
Disusun Oleh :
1. Aras Maulana 11170612
2. Diki Fabrianto 11170463
3. Syarif hidayah 11170614
4. Taufik Nur Iskandar 11170422
SEKOLAH TINGGI INFORMASI DAN KOMUNIKASI

NUSA MANDIRI KRAMAT 18
PROGRAM STUDI SISTEM INFORMASI
2019
KATA PENGANTAR
Puji syukur kehadirat Tuhan Yang Maha Esa yang telah memberikan taufik dan
hidayahnya, sehingga kami mampu menyelesaikan makalah ini dengan judul “Data
Mining“. Namun penyusun menyadari bahwa dalam penyusunan makalah ini masih jauh
dari kesempurnaan. Tidak lupa juga untuk kami ucapkan terima kasih kepada dosen
pembimbing kami “” yang telah memberi kami tugas ini.
Dalam penyusunan makalah ini tidak lepas dari berbagai pihak. Dari itu penyusun
menyampaikan rasa terimakasih kepada semua pihak yang telah membantu sehinnga
makalah ini dapat diselesaikan tepat pada waktunya. Semoga makalah ini bermanfaat bagi
penulis pada khususnya dan bagi pembaca pada umumnya.
Jakarta, 19 Mei 2019
Penyusun
i
DAFTAR ISI
HALAMAN JUDUL
KATA PENGANTAR ............................................................................................................ i
DAFTAR ISI .......................................................................................................................... i
DAFTAR GAMBAR ............................................................................................................ iv
BAB I PENDAHULUAN ..................................................................................................... 1
1.1 Latar Belakang ............................................................................................................. 1
1.2 Rumusan Masalah ........................................................................................................ 2
1.3 Tujuan Penelitian ......................................................................................................... 2
1.4 Manfaat Penelitian ....................................................................................................... 2
BAB II LANDASAN TEORI................................................................................................ 4
2.1 Tinjauan pustaka .......................................................................................................... 4
2.2.1 Pengertian Data mining ......................................................................................... 5
2.2.2 Proses Data Mining ............................................................................................... 5
2.2.3 Tahapan Proses KDD ........................................................................................... 7
2.2.4 Mode Data mining ................................................................................................. 9
2.3 Data Warehouse ........................................................................................................... 9
2.3.1 Pengertian data warehouse .................................................................................... 9
2.3.2 Arsitektur Data warehouse .................................................................................. 10
2.4 Algoritma C4.5 .......................................................................................................... 12
2.4.1 Langkah membangun pohon keputusan menggunakan C4.5 .............................. 13
BAB III METODE PENELITIAN ...................................................................................... 15
3.1 Metode Pengumpulan ................................................................................................ 15
3.1.1 Studi Pustaka ....................................................................................................... 15
3.2 Sumber Data .............................................................................................................. 16
3.2.1 Data Primer ......................................................................................................... 16
3.2.2 Data Sekunder ..................................................................................................... 16
3.3 Metode yang Diusulkan ............................................................................................. 16
BAB IV HASIL DAN PEMBAHASAN ............................................................................. 17
4.1 Pengumpulan Data ..................................................................................................... 17
4.2 Penyeleksian Data ...................................................................................................... 17
4.3 Hasil dan Pembahasan ............................................................................................... 19
BAB V KESIMPULAN DAN SARAN .............................................................................. 27
5.1 Kesimpulan ................................................................................................................ 27
ii
5.2 Saran .......................................................................................................................... 27
DAFTAR PUSTAKA .......................................................................................................... 28
iii
DAFTAR GAMBAR
Gambar 2.1 Tahapan Data Mining …………………………………………………………7

Gambar 2.2 Arsitektur Data Warehouse ………………………………………………….10
iv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Industri otomotif ialah merancang, mengembangkan, memproduksi, memasarkan,
dan menjual kendaraan bermotor dunia. Pada tahun 2007, lebih dari 73 juta kendaraan
bermotor, termasuk mobil dan kendaraan komersial diproduksi ke seluruh dunia.
Pada tahun 2007, sejumlah 71,9 juta mobil baru dijual ke seluruh dunia: 22,9 juta
ke Eropa, 21,4 juta di Asia-Pasifik, 19,4 juta ke Amerika Serikat dan Kanada, 4,4 juta
di Amerika Latin, 2,4 di Timur Tengah dan 1,4 juta di Afrika.[2] Pasaran di Amerika
Utara dan Nihon menjadi stagnan, sementara di Amerika Selatan dan Asia berkembang
pesat. Dari pemasar utama, Rusia, Brasil, India dan Republik Rakyat
Tiongkok menunjukkan pertumbuhan yang cepat.
Seiring dengan perkembangan jaman dan semakin meningkatnya kebutuhan alat
transportasi membawa peluang bagi perusahaan otomotif roda empat, yang sangat
dibutuhkan oleh banyak khalayak publik sebagai sarana transportasi sehari–hari yang lebih
efisien dan dinamis. Saat ini banyak sekali bermunculan merek mobil dengan berbagai
model, desain, dengan pilihan kualitas dan harga yang cukup bersaing. Bagi perusahaan yang
bergerak di bidang otomotif, kondisi ini merupakan suatu peluang untuk menguasai pangsa
pasar di bidang transportasi. Perusahaan otomotif yang ada di Amerika sangat banyak,
diantaranya Audi, BMW, Chevrolet, Ford, dan lain-lain
Data mining merupakan kegiatan proses pengolahan data dengan melakukan
perhitungan yang tepat untuk menghasilkan ilmu yang berguna. Dalam Penggunaan
algoritma C4.5, dapat digunakan untuk menentukan dan memprediksi suatu objek. Dengan
1
melakukan perhitungan data mining metode klasifikasi algoritma C4.5 kita dapat membuat
pohon keputusan yang akan membantu menentukan spesifkasi mobil berdasarkan
transmisinya
Berdasarkan permasalahan yang dibahas tersebut, maka penulis tertarik untuk
mengambil judul dengan tema “ALGORITMA C4.5 DALAM MENENTUKAN
SPESIFIKSI MOBIL AMERIKA DI TAHUN 1993”
1.2 Rumusan Masalah
Berdasarkan latar belakang yang sudah dibahas diawal, penulis dapat merumuskan
masalahnya yaitu bagaimana mengimplementasikan data mining algoritma C4.5 dalam
menentukan spesifikasi mobil di Amerika.
1.3 Tujuan Penelitian
Berdasarkan rumusan masalah yang telah dituliskan diatas, maka tujuan dari
penelitian ini adalah untuk mengimplementasikan data mining dengan metode klasifikasi
algoritma C4.5 untuk menentukan spesifikasi mobil di Amerika. Hasil dari pengujian
penelitian ini akan berguna untuk mengklasifikasikan spesifikasi mobil.
1.4 Manfaat Penelitian
Beberapa manfaat penelitian yaitu diantaranya :
1. Bagi Masyarakat Umum
Membantu untuk menentukan spesifikasi mobil yang ingin dibelinya
2. Bagi Penulis
2
Sebagai salah satu syarat agar dapat menyelesaikan tugas akhir mata pelajaran
Data Warehouse pada jurusan Sistem Informasi
3
BAB II
LANDASAN TEORI
Penelitian tugas akhir yang dituliskan ini dibuat dengan terlebih dahulu melakukan
studi keperpustakaan yang bersumber dari beberapa jurnal dan beberapa penelitian
yang telah adadenganmendukung dan mengangkat topikyang serupa. Beberapareferensi
yang diambil sebagai landasan teori diantaranya yaitu jurnal dan buku yang mengenai
algoritma dan metode yang sesuai dengan topik
2.1 Tinjauan pustaka
Beberapa jurnal dan artikel yang terkaitdengan metode data mining
teknik klasifikasidengan algoritma yang sama dengan topik penelitian ini yaitu:
1. Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa (Liliana Swastina
, 2013)
2. Penerapan Algoritma C4.5 Pada Program Klasifikasi Mahasiswa Dropout (Anik
Andriani , 2012)
3. Implementasi Data Mining dengan Algoritma C4.5 untuk Memprediksi Tingkat
Kelulusan Mahasiswa (David Hartanto Kamagi, Seng Hansun , 2014)
4. Perbandingan Performansi Algoritma C4.5 Dan Cart Dalam Klasifiksi Data Nilai
Mahasiswa Prodi Teknik Komputer Politeknik Negeri Padang (Indri Rahmayuni ,
2014)
5. Analisa Dan Penerapan Metode C4.5 Untuk Prediksi Loyalitas Pelanggan (Teguh
Budi Santoso , 2016)
4
2.2 Data mining
2.2.1 Pengertian Data mining
Data Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan
buatan, machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat
dan pengetahuan yang terkait dari berbagai database besar (Turban dkk. 2005). Terdapat beberapa
istilah lain yang memiliki makna sama dengan data mining, yaitu Knowledge discovery in
databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern
analysis), kecerdasan bisnis (business intelligence) dan data archaeology dan data
dredging(Larose, 2005)
Terdapat beberapa istilah lain yang memiliki makna sama dengan data mining,
yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction),
Analisa data/pola (data/pattern analysis), kecerdasan bisnis (business intelligence) dan data
archaeology dan data dredging (Larose, 2005)
2.2.2 Proses Data Mining
Proses yang umumnya dilakukan oleh data mining antara lain: deskripsi, prediksi,
estimasi, klasifikasi, clustering dan asosiasi. Secara rinci proses data mining dijelaskan
sebagai berikut (Larose, 2005):
a. Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada
suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah
dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus mudah
dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan (knowledge) pada
sistem. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik
postprocessing untuk melakukan validasi dan menjelaskan hasil dari proses data mining.
5
Postprocessing merupakan proses yang digunakan untuk memastikan hanya hasil yang valid
dan berguna yang dapat digunakan oleh pihak yang berkepentingan.
b. Prediksi
Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan
berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang. Contoh dari
tugas prediksi misalnya untuk memprediksikan adanya pengurangan jumlah pelanggan
dalam waktu dekat dan prediksi harga saham dalam tigabulan yang akan datang.
c. Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah
numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang
menyediakan nilai dari variabel target sebagai nilai prediksi Selanjutnya, pada peninjauan
berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.
Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit
berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan
antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan
menghasilkan model estimasi.
d. Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang
mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses
pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah satu kelas yang
sudah didefinisikan sebelumnya.
e. Clustering
6
Clustering merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke
dalam kelas objek yang sama. Sebuah kluster adalah kumpulan record yang memiliki
kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam
kluster lain. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu
sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster
dan semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.
f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam
suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market
basket analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk mengukur
hubungan antara dua atau lebih atribut.
2.2.3 Tahapan Proses KDD
Tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data
sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi,
data mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa
pengetahuan baru yang diharapkan memberikan kontribusi yang lebih baik. Secara detail
dijelaskan sebagai berikut (Fayyad, 1996):
7
Gambar 2.1 Tahapan data mining
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum
tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk
proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning
pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang
duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses
kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis
data.
8
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih
dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam
data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat
bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan
bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan
apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang
ada sebelumnya.
2.2.4 Mode Data mining
A. Prediction Methods Menggunakan beberapa variabel untuk memprediksi sesuatu
atau suatu nilai yang akan datang.
B. Description Methods Mendapatkan pola penafsiran (human interpretable patterns)
untuk menjelaskandata.
2.3 Data Warehouse
2.3.1 Pengertian data warehouse
Data Warehouse Adalah Sekumpulan Informasi Yang Disimpan Dalam Basis Data
Yang Digunakan Untuk Mendukung Pengambilan Keputusan Dalam Sebuah Organisasi.
Data Dikumpulkan Dari Berbagai Aplikasi Yang Telah Ada. Data Yang Telah Dikumpulkan
9
Tersebut Kemudian Divalidasi Dan Direstrukturisasi Lagi, Untuk Selanjutnya Disimpan
Dalam Data Warehouse. Pengumpulan Data Ini Memungkinkan Para Pengambil Keputusan
Untuk Pergi Hanya Ke Satu Tempat Untuk Mengakses Seluruh Data Yang Ada Tentang
Organisasinya ( Wayne, S. Freeze. 2000 )
2.3.2 Arsitektur Data warehouse
Dasar dari suatu data warehouse adalah suatu data yang besar yang mengandung
informasi bisnis. Data-data yang ada di dalam data warehouse bisa berasal dari banyak
sumber, misalkan dari database operasional atau transaksional dan sumber dari luar misalkan
dari web, penyedia jasa informasi, dari perusahaan lain, dan lain sebagainya. Data warehouse
mengandung beberapa elemen penting antara lain [Mallach, 2000,h.473]:
1. Sumber data yang digunakan oleh data warehouse, database transaksional dan
sumber data eksternal.
2. Proses ETL (Extraction, Transformation, Loading) dari sumber data ke database data
warehouse.
3. Membuat suatu ringkasan atau summary terhadap data warehouse misalkan dengan
menggunakan fungsi agregat.
4. Metadata.
Metadata mengacu data tentang data. Metadata menguraikan struktur dan
beberapa arti tentang data, dengan demikian mendukung penggunaan efektif atau
tidak efektif dari data.
5. Database data warehouse.
Database ini berisi data yang detail dan ringkasan data dari data yang ada di
dalam data warehouse. Karena data warehouse tidak digunakan dalam proses
transaksi individu, maka databasenya tidak perlu diorganisasikan untuk akses
10
transaksi dan untuk pengambilan data, melainkan dioptimisasikan untuk pola akses
yang berbeda di dalam analisis.
6. Query Tools
yaitu dengan OLAP (Online Analytical Processing ) dan data mining. Tool
untuk query ini meliputi antarmuka pengguna akhir dalam mengajukan pertanyaan
kepada database, dimana proses ini disebut sebagai On-line Analytical Processing
(OLAP). Tool ini juga terdiri dari tool otomatis yang menemukan pola-pola di dalam
data, yang sering disebut sebagai data mining. Data warehouse harus memiliki salah
satu dari kedua tipe ini atau malah kedua-duanya.
7. User.Pengguna yang memanfaatkan data warehouse tersebut
Gambar 2.2 Arsitektur data warehouse
11
2.4 Algoritma C4.5
Algoritma C4.5 adalah algoritma yang termasuk dalam data mining tipe klasifikasi
data dengan menggunakan teknik pohon keputusan sebagai alat untuk pengambilan
keputusan. Pohon keputusan merupakan teknik yang terkenal dan disukai karena memiliki
kelebihan-kelebihan khusus. Kelebihan tersebut seperti contoh dapat melakukan pengolahan
data yang berbentuk numerik (kontinyu) dan diskret, dapat menjadi solusi jika terdapat nilai
atribut yang hilang, aturan-turan yang dihasilkan oleh pohon keputusan dapat di
interpretasikan dan merupakan 14 algoritma tercepat di antara algoritma-algoritma di data
mining yang menggunakan memori utama di komputer. Algoritma C4.5 membangun pohon
keputusan dari data-data pelatihan yang telah di buat, yang berupa kasus-kasus atau record
dalam basis data. Setiap atributatribut yang terdapat pada pohon keputusan dapat berisi data-
data yang berupa diskret atau kontinyu (numerik). C4.5 juga dapat menyelesaikan
permasalahan yang permasalahan tersebut tidak memiliki unsur nilai untuk sebuah atau lebih
atribut. Namun, atribut kelas tersebut hanya dapat bertipe diskret dan tidak boleh kosong.
Terdapat tiga prinsip kerja dari algoritma C4.5 yaitu sebagai berikut :
1. Pembuatan zPohon Keputusan Obyek dari algoritma yang mengahasilkan sebuah
pohon keputusan adalah membangun struktur-struktur data pohon (dinamakan pohon
keputusan) yang akan digunakan untuk melakukan prediksi kelas dari sebuah
permsalahan atau record-record baru yang belum memiliki kelas. Algoritma ini
memilih pemecahan permsalahan yang terbaik dengan melakukan penghitungan dan
melakukan perbandingan gain ratio, dan node-node akan terbentuk pada level
berikutnya, dilakukan terus-menerus hingga membentuk daun-daun.
12
2. Pemangkasan Pohon Keputusan dan melakukan Evaluasi (Opsional) Dikarenakan
pohon keputusan yang terbentuk dapat berukuran besar dan sulit untuk dibaca,
Algoritma C4.5 dapat melakukan penyederhanaan pohon dengan melakukan
pemangkasan-pemangkasandengan berdasarkan nilai tingkat kepercayaan
(confidence level). Selain untuk melakukan pengurangan ukuran pohon,
pemangkasan berfungsi juga untuk mengurangi kesalahan prediksi pada record baru.
3. Pembuatan Aturan-Aturan dari Pohon Keputusan (Opsional) Aturan-aturan yang
terdapat pada pohon keputusan yang berbentuk if-then merupakan aturan yang
diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar hingga ke
daun. Setiap node yang terbentuk dan persyaratandari pencabangannya akan
diberikan pada if, sedangkan untuk nilai pada daun pohon keputusan akan dituliskan
dengan then. 15 Setelah semua aturan-aturan telah dibuat, maka akan dilakukan
penyederhanaan aturan (digabung atau diperumum)
2.4.1 Langkah membangun pohon keputusan menggunakan C4.5
Adapun langkah-langkah dalam membangun dan membentuk pohon keputusan
dengan mengunakan data mining algoritma C4.5 adalah[6]:
1. Pohon dimulai dengan sebuah simpul yang mereperesentasikan sampel data
pelatihan yaitu dengan membuat simpul akar.
2. Jika semua sampel berada dalam kelas yang sama, maka simpul ini menjadi daun
dan dilabeli menjadi kelas. Jika tidak, gain ratio akan digunakan untuk memilih
atribut split, yaitu atribut yang terbaik dalam memisahkan data sampel menjadi kelas-
kelas individu.
3. Cabang akan dibuat untuk setiap nilai pada atribut dan data sampel akan dipartisi
lagi.
13
4. Algoritma ini menggunakan proses rekursif untuk membentuk pohon keputusan pada
setiap data partisi. Jika sebuah atribut sduah digunakan disebuah simpul, maka atribut
ini tidak akan digunakan lagi di simpul anakanaknya.
5. Proses ini berhenti jika dicapai kondisi seperti berikut : a. Semua sampel pada simpul
berada di dalam satu kelas. b. Tidak ada atribut lainnya yang dapat digunakan untuk
mempartisi sampel lebih lanjut. Dalam hal ini akan diterapkan suara terbanyak. Ini
berarti mengubah sebuah simpul menjadi daun dan melabelinya dnegan kelas pada
suara terbanyak.
14
BAB III
METODE PENELITIAN
Metode penelitian terdiri atas dua kata yaitu metode dan penelitian. Metode berasal
dari kata Yunani yaitu methodos yang berarti cara atau jalan untuk mencapai sasaran atau
tujuan dalam suatu permasalahan, kata yang mengikutinya adalah penelitian yang berarti
suatu cara untuk mencapai sesuatu dengan metode tertentu, dengan cara hati-hati, sistematik
dan sempurna terhadap permasalahan yang sedang dihadapi.
Metode penelitian menurut Supriati (2012:5) adalah sebagai berikut : “Metode
penelitian adalah tatacara bagaimana suatu penelitian dilaksanakan.” Menurut Sugiyono
(2009:2) menyatakan bahwa: “Metode penelitian pada dasarnya merupakan cara ilmiah
untuk mendapatkan data dengan tujuan dan kegunaan tertentu.”
Penelitian kuantitatif adalah suatu proses menemukan pengetahuan yang
menggunakan data berupa angka sebagai alat menganalisa keterangan mengenai apa yang
ingin diketahui.(Kasiram (2008:149) Metodologi Penelitian Kualitatif dan Kuantitatif).
3.1 Metode Pengumpulan
Data Di dalam sebuah kegiatan penelitian dibutuhkan pengumpulan data-data dan
metode pengumpulan data yang memiliki perananan penting untuk memberikan keakuratan
dan kualitas dari data yang akan digunakan didalam proses penelitian. Terdapat metode –
metode yang dapat digunakan untuk mendukung peneletian adalah:
3.1.1 Studi Pustaka
Metode yang dapat digunakan oleh peneliti didalam mencari sebuah informasi yang
terkait dengan tema penelitian dan metode dari jurnal peneitian yang memiliki kemiripan
tema dengan melakukan studi keperpustakaan dan mencari jurnal penelitian pada media
15
digital yang berhubungan dengan algoritma data mining. Dapat juga pada buku-buku yang
berhubungan langsung pada algoritma yang digunakan oleh peneliti.
3.2 Sumber Data
Sumber-sumber data penelitian yang digunakan pada penelitian dapat yang diperoleh dan
dikelompokan menjadi 2, yaitu:
3.2.1 Data Primer
Data primer merupakan data yang didapatkan dengan melakuakn sebuah pengamatan
secara langsung terkait dengan penelitian seperti melakukan survey dan wawancara, dimana
hasil dari kegiatan survey dan wawancara tersebut dapat digunakan untuk bahan penelitian
didalam penerapan Classification Rules yang berguna untuk memprediksi calon mahasiswa
yang dapat dilihat pada pembuatan pohon keputusan.
3.2.2 Data Sekunder
Data sekunder meruapakan data yang didapatkan dalam bentuk sebuah informasi
seperti pada jurnal, literatur, buku dan juga media digital; seperti internet yang berkaitan
langsung dengan metode dan tema penelitian yang disusun oleh penulis.
3.3 Metode yang Diusulkan
Metode yang diusulkan dalam penelitian ini yaitu menggunakan metode data mining
algoritma C.45 dalam spesifikasi mobil dengan menggunakan pohon keputusan pada data
manufakur mobil di Amerika Serikat
16
BAB IV
HASIL DAN PEMBAHASAN
4.1 Pengumpulan Data
Dalam tugas akhir ini sumber data yang digunakan berasal dari data spesifikasi mobil yang keluar
di amerika. Kemudian data yang didapat akan diolah dengan menggunakan metode proses C 4.5
untuk mendapatkan pohon keputusan
4.2 Penyeleksian Data
Dalam proses data mining proses pertama yang dilakukan ialah peyeleksian data dari
spesifikasi mobil yang keluar. Dari data yang diperoleh terdapat 25 atribut. Kemudian
atribut yang dipakai dalam proses data mining diambil 5 atribut dari 25 atribut. Variabel
yang digunakan dalam poses data mining menggunakan atribut dari Type, Air Bags,
Cylinders, Passangers dan Manual.
No. Type AirBags Cyls Passengers Manual

1 Small 0 4 5 Yes
2 Midsize 2 6 5 Yes
3 Compact 1 6 5 Yes
4 Midsize 2 6 6 Yes
5 Midsize 1 4 4 Yes
6 Midsize 1 4 6 No
7 Large 1 6 6 No
8 Large 1 6 6 No
9 Midsize 1 6 5 No
10 Large 1 8 6 No
11 Midsize 2 8 5 No
12 Compact 0 4 5 Yes
14 Sporty 2 6 4 Yes
15 Midsize 0 4 6 No
16 Van 0 6 7 No
17 Van 0 6 8 No
18 Large 1 8 6 No
17
19 Sporty 1 8 2 Yes
20 Large 2 6 6 No
21 Compact 2 4 6 No
22 Large 1 6 6 No
23 Small 0 4 5 Yes
24 Small 1 4 5 Yes
26 Van 1 6 7 No
27 Midsize 1 4 6 No
28 Sporty 1 6 4 Yes
29 Small 0 4 5 Yes
30 Large 2 6 6 No
31 Small 0 4 4 Yes
32 Small 0 4 5 Yes
34 Sporty 1 4 4 Yes
35 Sporty 1 4 4 Yes
Rumus Perhitungan Gain
Keterangan:
- S : himpunan
- A : atribut
- n : jumlah partisi atribut A
- | Si | : jumlah kasus pada partisi ke-i
- | S | : jumlah kasus dalam S
Menghitung Nilai Entropy
18
Keterangan:
S : himpunan kasus
A : fitur
n : jumlah partisi S
pi : proporsi dari Si terhadap S
4.3 Hasil dan Pembahasan

1 Small 0 4 5 Yes
2 Midsize 2 6 5 Yes
3 Compact 1 6 5 Yes
4 Midsize 2 6 6 Yes
5 Midsize 1 4 4 Yes
6 Midsize 1 4 6 No
7 Large 1 6 6 No
8 Large 1 6 6 No
9 Midsize 1 6 5 No
10 Large 1 8 6 No
11 Midsize 2 8 5 No
14 Sporty 2 6 4 Yes
15 Midsize 0 4 6 No
16 Van 0 6 7 No
17 Van 0 6 8 No
18 Large 1 8 6 No
19 Sporty 1 8 2 Yes
20 Large 2 6 6 No
21 Compact 2 4 6 No
22 Large 1 6 6 No
23 Small 0 4 5 Yes
24 Small 1 4 5 Yes
19
26 Van 1 6 7 No
27 Midsize 1 4 6 No
28 Sporty 1 6 4 Yes
29 Small 0 4 5 Yes
30 Large 2 6 6 No
31 Small 0 4 4 Yes
32 Small 0 4 5 Yes
34 Sporty 1 4 4 Yes
35 Sporty 1 4 4 Yes
Keseluruhan
Total 35
Ya 19
Tidak 16
Ya 0,542857 -0,88136 0,47845
Tidak 0,457143 -1,12928 0,516244
0,994694
Type
Small MidSize
Total 6 Total 8
Ya 6 Ya 3
Tidak 0 Tidak 5
Ya 1 0 0 Ya 0,375 -1,41504 0,530639
Tidak 0 0 0 Tidak 0,625 -0,67807 0,423795
0 0,954434
Compact Large
Total 6 Total 7
Ya 5 Ya 1
Tidak 1 Tidak 6
Ya 0,833333 -0,26303 0,219195 Ya 0,142857 -2,80735 0,401051
Tidak 0,166667 -2,58496 0,430827 Tidak 0,857143 -0,22239 0,190622
0,650022 0,591673
20
Sporty Van
Total 5 Total 3
Ya 5 Ya 0
Tidak 0 Tidak 3
Ya 1 0 0 Ya 0 0 0
Tidak 0 0 0 Tidak 1 0 0
0 0
Gain JML*entrp
Small 0,171429 0
Mid Size 0,228571 0,21815634
Compact 0,171429 0,65002242
Large 0,2 0,11833456
Sporty 0,142857 0
Van 0,085714 0
Total Entropi 0,994694
0,98651332
0,00818047
Air Bags
0 1
Total 10 Total 18
Ya 8 Ya 9
Tidak 2 Tidak 9
Ya 0,8 -0,32193 0,257542 Ya 0,5 -1 0,5
Tidak 0,2 -2,32193 0,464386 Tidak 0,5 -1 0,5
0,721928 1
2 Gain JML*entrp
Total 7 0 0,285714 0,206265
Ya 3 1 0,514286 0,514286
Tidak 4 2 0,2 0,197046
Ya 0,428571 -1,22239 0,523882 Total Entropi 0,994694
Tidak 0,571429 -0,80735 0,461346 0,917597
0,985228 0,077097
21
Cylinders
4 6
Total 17 Total 14
Ya 13 Ya 5
Tidak 4 Tidak 9
Ya 0,764706 -0,38702 0,295959 Ya 0,357143 -1,48543 0,53051
Tidak 0,235294 -2,08746 0,491168 Tidak 0,642857 -0,63743 0,409776
0,787127 0,940286
8
Total 4 Gain JML*entropi
Ya 1 4 0,485714 0,382318628
Tidak 3 6 0,4 0,376114383
Ya 0,25 -2 0,5 8 0,114286 0,0927175
Tidak 0,75 -0,41504 0,311278 Total Entropi 0,994694
0,811278 0,851150511
0,143543284
Passangers
2 4
Total 1 Total 6
Ya 1 Ya 6
Tidak 0 Tidak 0
Ya 1 0 0 Ya 1 0 0
0 0
5 6
Total 12 Total 13
Ya 10 Ya 2
Tidak 2 Tidak 11
- -
Ya 0,833333 0,26303 0,219195 Ya 0,153846 2,700439718 0,415452
-
Tidak 0,166667 2,58496 0,430827 Tidak 0,846154 -0,2410081 0,20393
0,650022 0,619382
22
7 8
Total 2 Total 1
Ya 0 Ya 0
Tidak 2 Tidak 1
Ya 0 0 0 Ya 0 0 0
0 0
Gain JML*entrp
2 0,028571 0
4 0,171429 0
5 0,342857 0,22286483
6 0,371429 0,23005624
7 0,057143 0
8 0,028571 0
Total Entropi 0,994694
0,45292107
0,54177272
 Perhitungan langkah ke-2

1 Small 0 4 5 Yes
2 Midsize 2 6 5 Yes
3 Compact 1 6 5 Yes
4 Midsize 1 6 5 No
5 Midsize 2 8 5 No
6 Compact 0 4 5 Yes
7 Compact 1 4 5 Yes
8 Small 0 4 5 Yes
9 Small 1 4 5 Yes
10 Small 0 4 5 Yes
11 Small 0 4 5 Yes
23
Keseluruhan
Total 12
Ya 10
Tidak 2
-
Ya 0,833333 0,26303 0,219195
-
Tidak 0,166667 2,58496 0,430827
0,650022
Type
Small MidSize
Total 5 Total 3
Ya 5 Ya 1
Tidak 0 Tidak 2
Ya 1 0 0 Ya 0,333333 -1,58496 0,528321
Tidak 0 0 0 Tidak 0,666667 -0,58496 0,389975
0 0,918296
Compact
Total 4 Gain JML*entrp
Ya 4 Small 0,416667 0
Tidak 0 Mid Size 0,25 0,229573959
Ya 1 0 0 Compact 0,333333 0
Tidak 0 0 0 Total Entropi 0,650022
0 0,229573959
0,420448463
Air Bags
0 1
Total 6 Total 4
Ya 6 Ya 3
Tidak 0 Tidak 1
Ya 1 0 0 Ya 0,75 -0,41504 0,311278
Tidak 0 0 0 Tidak 0,25 -2 0,5
0 0,811278
24
2 Gain JML*entrp
Total 2 0 0,5 0
Ya 1 1 0,333333 0,270426041
Tidak 1 2 0,166667 0,166666667
Ya 0,5 -1 0,5 Total Entropi 0,650022
Tidak 0,5 -1 0,5 0,437092708
1 0,212929713
Cylinders
4 6
Total 8 Total 3
Ya 8 Ya 2
Tidak 0 Tidak 1
Ya 1 0 0 Ya 0,666667 -0,58496 0,389975
Tidak 0 0 0 Tidak 0,333333 -1,58496 0,528321
0 0,918296
8
Total 1 Gain JML*entropi
Ya 1 4 0,666667 0
Tidak 0 6 0,085714 0,078711071
Ya 1 0 0 8 0,028571 0
Tidak 0 0 0 Total Entropi 0,650022
0 0,078711071
0,57131135

1 Midsize 2 6 5 Yes
2 Compact 1 6 5 Yes
3 Midsize 1 6 5 No
Keseluruhan
Total 3
Ya 2
Tidak 1
-
Ya 0,666667 0,58496 0,389975
-
Tidak 0,333333 1,58496 0,528321
25
0,918296
Type
MidSize Compact
Total 2 Total 1
Ya 1 Ya 1
Tidak 1 Tidak 0
Ya 0,5 -1 0,5 Ya 1 0 0
Tidak 0,5 -1 0,5 Tidak 0 0 0
1 0
Gain JML*entrp
Mid Size 0,666667 0,666667
Compact 0,083333 0
Total Ent 0,918296
0
0,918296
Airbags
1 2
Total 2 Total 1
Ya 1 Ya 1
Tidak 1 Tidak 0
Ya 0,5 -1 0,5 Ya 1 0 0
Tidak 0,5 -1 0,5 Tidak 0 0 0
1 0
Gain JML*entrp
1 0,666667 0,666667
2 0,333333 0
Total
Ent 0,918296
0,666667
0,251629
26
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil perhitungan algoritma C4.5 diambil kesimpulan sebagai berikut:
1. factor dominan spefikasi mobil yang telah ada yaitu berdasarkan manual ya atau
tidak nya mobil
2. Algoritma C4.5 merupakan metode algoritma yang cocok untuk diterapkan dalam
menentukan spesifikasi Mobil Hasil tersebut dapat digunakan oleh masyarakat
dalam menentukan spesifikasi mobil
5.2 Saran
1. Jumlah dataset yang digunakan untuk penelitian selanjutnya hendaknya ditambah
dan diperbanyak agar menghasilkan data yang lebih akurat.
2. Jumlah attribute yang digunakan pada penelitian ini masih terlihat 5 atribut. Untuk
pengembangan perlu dilihat faktor lain seperti mennentukan harga mobil pada data
manufaktur mobil di amerika
27
DAFTAR PUSTAKA
 Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi Bahasa
Indonesia Jilid 1. Andi: Yogyakarta.
 ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT
Press.
 Larose, D.T. (2005). Discovering Knowledge in Data: An Introduction to Data

mining. Wiley Interscience. Ney Jersey.
 triisant. (2015, juni) documen.tips. [Online].

https://dokumen.tips/documents/algoritma-c45.html
 Industri otomotif
https://id.wikipedia.org/wiki/Industri_otomotif#Referensi
28

ALGORITMA C4.5 MENENTUKAN SPESIFIKASI MOBIL AMERIKA 1993

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ALGORITMA C4.5 MENENTUKAN SPESIFIKASI MOBIL AMERIKA 1993

Diunggah oleh

Hak Cipta:

Format Tersedia

“ALGORITMA C4.

5 DALAM MENENTUKAN SPESIFIKSI MOBIL

SEKOLAH TINGGI INFORMASI DAN KOMUNIKASI

Jakarta, 19 Mei 2019

Gambar 2.1 Tahapan Data Mining …………………………………………………………7

1.1 Latar Belakang

Industri otomotif ialah merancang, mengembangkan, memproduksi, memasarkan,

bermotor, termasuk mobil dan kendaraan komersial diproduksi ke seluruh dunia.

Tiongkok menunjukkan pertumbuhan yang cepat.

Seiring dengan perkembangan jaman dan semakin meningkatnya kebutuhan alat

diantaranya Audi, BMW, Chevrolet, Ford, dan lain-lain

Data mining merupakan kegiatan proses pengolahan data dengan melakukan

pohon keputusan yang akan membantu menentukan spesifkasi mobil berdasarkan

Berdasarkan permasalahan yang dibahas tersebut, maka penulis tertarik untuk

mengambil judul dengan tema “ALGORITMA C4.5 DALAM MENENTUKAN

SPESIFIKSI MOBIL AMERIKA DI TAHUN 1993”

1.2 Rumusan Masalah

masalahnya yaitu bagaimana mengimplementasikan data mining algoritma C4.5 dalam

menentukan spesifikasi mobil di Amerika.

1.3 Tujuan Penelitian

penelitian ini akan berguna untuk mengklasifikasikan spesifikasi mobil.

1.4 Manfaat Penelitian

Beberapa manfaat penelitian yaitu diantaranya :

1. Bagi Masyarakat Umum

Membantu untuk menentukan spesifikasi mobil yang ingin dibelinya

Data Warehouse pada jurusan Sistem Informasi

yang telah adadenganmendukung dan mengangkat topikyang serupa. Beberapareferensi

algoritma dan metode yang sesuai dengan topik

2.1 Tinjauan pustaka

Beberapa jurnal dan artikel yang terkaitdengan metode data mining

1. Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa (Liliana Swastina

2. Penerapan Algoritma C4.5 Pada Program Klasifikasi Mahasiswa Dropout (Anik

3. Implementasi Data Mining dengan Algoritma C4.5 untuk Memprediksi Tingkat

Kelulusan Mahasiswa (David Hartanto Kamagi, Seng Hansun , 2014)

Mahasiswa Prodi Teknik Komputer Politeknik Negeri Padang (Indri Rahmayuni ,

Budi Santoso , 2016)

databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern

yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction),

archaeology dan data dredging (Larose, 2005)

2.2.2 Proses Data Mining

sebagai berikut (Larose, 2005):

dan berguna yang dapat digunakan oleh pihak yang berkepentingan.

Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan

tugas prediksi misalnya untuk memprediksikan adanya pengurangan jumlah pelanggan

menghasilkan model estimasi.

Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang

mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses

sudah didefinisikan sebelumnya.

hubungan antara dua atau lebih atribut.

2.2.3 Tahapan Proses KDD

dijelaskan sebagai berikut (Fayyad, 1996):

bergantung pada tujuan dan proses KDD secara keseluruhan.

2.2.4 Mode Data mining

A. Prediction Methods Menggunakan beberapa variabel untuk memprediksi sesuatu

atau suatu nilai yang akan datang.

B. Description Methods Mendapatkan pola penafsiran (human interpretable patterns)

2.3 Data Warehouse

2.3.1 Pengertian data warehouse

Yang Digunakan Untuk Mendukung Pengambilan Keputusan Dalam Sebuah Organisasi.

Organisasinya ( Wayne, S. Freeze. 2000 )

2.3.2 Arsitektur Data warehouse

mengandung beberapa elemen penting antara lain [Mallach, 2000,h.473]:

sumber data eksternal.