Anda di halaman 1dari 17

MAKALAH DATA MINING

TREND PENJUALAN

OLEH :

NAMA : ABIE ILHAM PRASETYO

NPM : 43A87006160148

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

BANI SALEH

BEKASI

2019
DAFTAR ISI
ABSTRAK .............................................................................................................. 3

BAB I ...................................................................................................................... 4

1. PENDAHULUAN .............................................................................................. 4

1.1 Latar Belakang .............................................................................................. 4

1.2 Perumusan Masalah ...................................................................................... 5

1.3 Batasan Masalah........................................................................................... 5

1.4 Tujuan dan Manfaat Penelitian ..................................................................... 6

1.4.1 Tujuan Penelitian ................................................................................... 6

1.4.2 Manfaat Penelitian ................................................................................. 6

1.5 Model Pembangunan Perangkat Lunak ....................................................... 6

BAB II ..................................................................................................................... 8

PEMBAHASAN ..................................................................................................... 8

2.1 Landasan Teori ......................................................................................... 8

2.2 Tahapan Data Mining.................................................................................. 10

2.3 Metode Pengumpulan Data ......................................................................... 11

BAB III ................................................................................................................. 13

ALGORITMA ....................................................................................................... 13

3.1Decision Tree ............................................................................................... 13

3.2 Naive Baiyes ............................................................................................... 13

2
3.3 K-NN ........................................................................................................... 14

Perbandingan hasil ................................................................................................ 15

BAB IV ................................................................................................................. 16

KESIMPULAN ..................................................................................................... 16

ABSTRAK

Negara Indonesia bahkan dunia sedang gencarnya memerangi tindakan terorisme


yang terjadi. Hal ini dipicu dengan meningkatnya tindakan terorisme di dunia
sekarang ini. Hal itu ditandai dengan adanya peningkatan tindakan terorisme setiap
tahunnya. Persentase tindakan terorisme mengalami peningkatan sebesar 43% di
seluruh dunia pada tahun 2013. Penyeleksian sasaran tindak terorisme dilakukan
berdasarkan pada beberapa variabel, diantaranya Country, Date, City, Perpetrator,
Guncertain, Fatalities, Injured, Attack Type, dan Weapon Type. Penyeleksian
tersebut akan menghasilkan 14 kategori yaitu, Airports and Aircraft, Religious
Figures/Institutions, Government (Diplomatic), Tourists, Military, Police, Private
Citizens & Property, Government (General), Business, Journalists & Media, NGO
(Non-governmental organization), Educational Institution, Transportation, dan
Utilities. Proses penyeleksian selama ini dilakukan secara konvensional dan
subjektif. Hal itu mengakibatkan lamanya waktu yang dibutuhkan sehingga
penyeleksian berjalan tidak efektif dan efisien. Untuk itu, dilakukanlah suatu
analisis perbandingan algoritma klasifikasi untuk menghasilkan hasil prediksi yang
akurat. Adapun yang menjadi data latih ialah data tindakan terorisme di Indonesia.
Data itulah yang akan menjadi dasar dalam membentuk suatu model klasifikasi.
Algoritma klasifikasi yang akan dianalisis dan dibandingkan ialah, k-NN, Naive

3
Bayes dan Decision Tree. Dari tiga algoritma tersebut, didapatkan hasil akurasi
untuk k-NN dengan k=5 adalah 48.59%, dengan k=10 adalah 48.28%, dengan k=15
adalah 46.39%, dengan k=20 adalah 45.45%, dan dengan k=25 adalah 41.38%.
Sementara untuk algoritma Naive Bayes, akurasi yang dihasilkan mencapai
92.79%, dan untuk algoritma Decision Tree mencapai 75.24%. Sehingga bisa
disimpulkan bahwa, algoritma dengan akurasi tertinggi dimiliki oleh Naive Bayes.

BAB I

1. PENDAHULUAN

1.1 Latar Belakang

Data mining adalah suatu konsep yang digunakan untuk menemukan pengetahuan
yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik
yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan
potensial dan berguna yang tersimpan di dalam database besar. (Turban et al, 2005).
Data mining adalah bagian dari proses KDD (Knowledge Discovery in Databases)
yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan,
transformasi, data mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara
umum juga dikenal sebagai pangkalan data. Teknik data mining secara garis besar
dapat dibagi dalam dua kelompok: verifikasi dan discovery. Metode verifikasi
umumnya meliputi teknik-teknik statistik seperti goodness of fit, dan analisis
variansi. Metode discovery lebih lanjut dapat dibagi atas model prediktif dan model
deskriptif. Teknik prediktif melakukan prediksi terhadap data dengan
menggunakan hasil-hasil yang telah diketahui dari data yang berbeda. Model ini
dapat dibuat berdasarkan penggunaan data historis lain. Sementara itu, model
deskriptif bertujuan mengidentifikasi polapola atau hubungan antar data dan
memberikan cara untuk mengeksplorasi karakteristik data yang diselidiki
(Dunham, 2003). 2 Masih menjadi isu sentral di dunia pendidikan tinggi khususnya
4
program diploma dalam hal faktor prediktor dan teknik yang digunakan untuk
memprediksi keinginan mahasiswa dalam melanjutkan studinya ke jenjang yang
lebih tinggi. Hingga saat ini masih jarang ditemukan prediktor-prediktor serta
teknik yang cukup handal dan akurat dalam memprediksi tingkat keinginan
mahasiswa untuk melanjutkan studinya, apakah mereka akan melanjutkan studinya
pada bidang ilmu yang sama atau melanjukan studinya tapi kebidang ilmu yang
berbeda atau tidak malanjutkan studinya.

1.2 Perumusan Masalah

Dengan mengacu pada latar belakang masalah diatas, maka permasalahan

yang dibahas dan diteliti adalah :

“Bagaimana cara menerapkan Data Mining pada trend penjualan study kasus

PT.Indomarco Palembang?”.

1.3 Batasan Masalah

Adapun batasan masalah yang akan dibahas adalah :


1. Data yang akan dianalisa merupakan data penjualan produk makanan dan
minuman di PT. Indomarco Palembang.
2. Algoritma yang digunakan dalam metode clustering yang dilakukan adalah
Agglomerative Hierarchical Clustering Algorithm (AHC).
3. Hasil dari analisa tersebut adalah terbentuknya pola penjualan produk makanan
dan minuman di PT. Indomarco Palembang.
4. Metode yang digunakan adalah metode aliran terstruktur dimana tools yang
digunakan adalah Data Flows Diagram (DFD) dan Entity Relationship
Diagram (ERD).

5
1.4 Tujuan dan Manfaat Penelitian

1.4.1 Tujuan Penelitian

Berdasarkan permasalahan yang diteliti, maka maksud dari penulisan skripsi


ini adalah
1. Untuk menerapkan Data Mining pada penjualan produk makanan dan
minuman di PT. Indomarco Palembang menggunakan metode clustering.
2. Untuk melihat trend penjualan yang paling banyak diminati konsumen
khususnya penjualan makanan dan minuman.

1.4.2 Manfaat Penelitian

Manfaat dari penelitian ini antara lain :


1. Mempermudah menganalisis data yang besar
2. Membantu memberikan informasi dari data penjualan yang diolah
3. Memberikan gambaran dalam pengambilan keputusan

1.5 Model Pembangunan Perangkat Lunak

Teknik analisis data dalam pembuatan perangkat lunak menggunakan


pemodelan perangkat lunak dengan paradigma waterfall seperti terlihat pada
Gambar 1, yang meliputi beberapa proses diantaranya:
a. System / Information Engineering
Merupakan bagian dari sistem yang terbesar dalam pengerjaan suatu proyek,
dimulai dengan menetapkan berbagai kebutuhan dari semua elemen yang
diperlukan sistem dan mengalokasikannya kedalam pembentukan perangkat
lunak.
b. Analisis
Merupakan tahap menganalisis hal-hal yang diperlukan dalam pelaksanaan
proyek pembuatan perangkat lunak.

6
c. Design
Tahap penerjemahan dari data yang dianalisis kedalam bentuk yang mudah
dimengerti oleh user.
d. Coding
Tahap penerjemahan data atau pemecahan masalah yang telah dirancang
keadalam bahasa pemrograman tertentu.
e. Pengujian
Merupakan tahap pengujian terhadap perangkat lunak yang dibangun.
f. Maintenance
Tahap akhir dimana suatu perangkat lunak yang sudah selesai dapat mengalami
perubahan–perubahan atau penambahan sesuai dengan permintaan user.

Sumber:Al-Fatah, (2007:13)

Gambar 1 Paradigma Waterfall

7
BAB II

PEMBAHASAN

2.1Landasan Teori

Data Mining adalah proses yang menggunakan teknik statistik,


matematika, kecerdasan buatan, machine learning untuk mengekstraksi
dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang
terkait dari berbagai database besar (Turban dkk. 2005). Terdapat beberapa
istilah lain yang memiliki makna sama dengan data mining,
yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan
(knowledge extraction), Analisa data/pola (data/pattern analysis),
kecerdasan bisnis (business intelligence) dan data archaeology dan data
dredging(Larose, 2005)
Algoritma Decision tree adalah salah satu metode klasifikasi yang
paling populer, karena mudah untuk diinterpretasi oleh manusia. Decision
tree adalah model prediksi menggunakan struktur pohon atau struktur

berhirarki, Nama lain dari decision tree adalah CART (Classification and
Regression Tree). Dimana metode ini merupakan gabungan dari dua jenis
pohon, yaitu classification tree dan juga regression tree. Untuk
memudahkan, berikut ilustrasi dari keduanya. Manfaat utama dari
penggunaan decision treeadalah kemampuannya untuk mem-break
down proses pengambilan keputusan yang kompleks menjadi lebih simple,
sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari
permasalahan.
Algoritma Naive Bayes merupakan sebuah metoda klasifikasi
menggunakan metode probabilitas dan statistik yg dikemukakan oleh
ilmuwan Inggris Thomas Bayes. Algoritma Naive Bayes memprediksi
peluang di masa depan berdasarkan pengalaman di masa sebelumnya
sehingga dikenal sebagai Teorema Bayes. Ciri utama dr Naïve Bayes

8
Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari
masing-masing kondisi / kejadian Naive Bayes Classifier bekerja sangat
baik dibanding dengan model classifier lainnya. Hal ini dibuktikan pada
jurnal Xhemali, Daniela, Chris J. Hinde, and Roger G. Stone. “Naive
Bayes vs. decision trees vs. neural networks in the classification of
training web pages.” (2009), mengatakan bahwa “Naïve Bayes Classifier
memiliki tingkat akurasi yg lebih baik dibanding model classifier lainnya”.

Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan


jumlah data pelatihan (training data) yang kecil untuk menentukan
estimasi parameter yg diperlukan dalam proses pengklasifikasian. Karena
yg diasumsikan sebagai variabel independent, maka hanya varians dari
suatu variabel dalam sebuah kelas yang dibutuhkan untuk menentukan
klasifikasi, bukan keseluruhan dari matriks kovarians.

Algoritma k-Nearest Neighbor adalah algoritma supervised


learning dimana hasil dari instance yang baru diklasifikasikan berdasarkan
mayoritas dari kategori k-tetangga terdekat. Tujuan dari algoritma ini adalah
untuk mengklasifikasikan obyek baru berdasarkan atribut dan sample-
sample dari training data. Algoritma k-Nearest
Neighbor menggunakan Neighborhood Classificationsebagai nilai prediksi
dari nilai instance yang baru.

9
2.2 Tahapan Data Mining

Menururut Syaifullah (2010:15), Dalam aplikasinya, data mining sebenarnya


merupakan bagian dari proses Knowledge Discovery in Database (KDD), bukan
sebagai teknologi yang utuh dan berdiri sendiri. Data mining merupakan suatu
bagian langkah yang penting dalam proses KDD terutama berkaitan dengan
ekstraksi dan penghitungan pola-pola dari data yang ditelaah, seperti ditunjukan
oleh gambar 1 dibawah ini :

Sumber:Al-Fatah, (2007:13)

Gambar 2. Tahapan pada proses knowledge discovery

a. Data cleaning

Untuk menghilangkan data noise (data yang tidak relevan/berhubungan


langsung dengan tujuan akhir proses data mining, misal: data mining yang
bertujuan untuk menganalisa hasil penjualan, maka data-data dalam kumpulan

10
seperti ”nama pegawai”, ”umur”, dan sebagainya dapat di-ignore) dan tidak
konsisten.
b. Data integration

Untuk menggabungkan multiple data source.

c. Data selection

Untuk mengambil data yang sesuai untuk keperluan analisa.


d. Data transformation

Untuk mentransformasikan data ke dalam bentuk yang lebih sesuai untuk di


mining. Data mining Proses terpenting dimana metode tertentu diterapkan
untuk menghasilkan data pattern.
e. Pattern evaluation

Untuk mengidentifikasi apakah interenting patterns yang didapatkan sudah


cukup mewakili knowledge berdasarkan perhitungan tertentu.
f. Knowledge presentation

Untuk mempresentasikan knowledge yang sudah didapatkan dari user.

2.3 Metode Pengumpulan Data

Metode pengumpulan data yang digunakan untuk mendapatkan data dan

informasi, maka metode yang digunakan dalam proses pengumpulan data sebagai

berikut :

1. Metode Observasi

11
Dalam hal ini yang akan dilakukan adalah melihat serta mempelajari

permasalahan yang ada dilapangan yang erat kaitannya dengan objek yang

diteliti.

2. Metode Studi Pustaka

Metode yang dilakukan adalah dengan cara mencari bahan yang mendukung

dalam pendefenisian masalah melalui buku-buku, internet.

Tabel 1. Data Penjualan Makanan dan Minuman Per Wilayah Tanggal 1

Januari 2013

Wilayah Frekuensi
No Jumlah Penjualan
Sumbagsel Penjualan
1 Palembang 30787 Tinggi
2 Muara enim 20567 Tinggi
3 Prabumulih 9655 Sedang
4 Indralaya 8555 Sedang
5 Sungai lilin 7659 Sedang
6 Jambi 22643 Tinggi
7 Pagaralam 7643 Sedang
8 Kayu Agung 11823 Sedang
9 Sekayu 17273 Tinggi
10 Banyuasin 5890 Sedang
11 Tugu Mulyo 14759 Sedang

12
BAB III

ALGORITMA

3.1Decision Tree

Process

Hasil

3.2 Naive Baiyes

Process

13
Hasil

3.3 K-NN

Process 1

14
Proses 2

Hasil

Perbandingan hasil

Dari Sebuah studi perbandingan algoritma rawat inap dijelaskan di atas dibuat dan
grafik akurasi diplot untuk menentukan algoritma terbaik untuk prediksi rawat inap
di RSCM elektabilitas. Dari perbandingan antara pengukuran akurasi ketiga metode

15
diantara tiga algoritma yang digunakan, algoritma Decision Tree (C4.5) lah yang
memiliki performance yang paling tinggi yaitu sebesar 90,10% dan 0,999. Sehingga
dapat diambil kesimpulan bahwa algoritma Decision Tree (C4.5) memiliki
performance yang lebih baik dibandingkan Naive Bayes (NB). Sedangkan metode
yang tidak direkomendasikan untuk digunakan yaitu
K-Nearest Neighbor karena memiliki nilai AUC hanya sebesar 0.001 menunjukkan

prediktor tersebut tidak lebih baik dari kesempatan.

BAB IV

KESIMPULAN

berdasarkan pengujian dataset Pemilu KPU menggunakan 3 algoritma


yaitu Decision Tree (C4.5), Naive Bayes (NB), dan K-
Nearest Neighbor (K-NN) diperoleh kesimpulan sebagai berikut:

Berdasarkan tabel diatas, diantara tiga algoritma yang digunakan,


algoritma Decision Tree (C4.5) lah yang memiliki performance atas
Accuracy dan AUC yang paling tinggi yaitu sebesar 93,16% dan 0,915. Sehingga
dapat diambil kesimpulan bahwa algoritma Decision Tree (C4.5) memiliki
performance yang lebih baik dibandingkan Naive Bayes (NB) dan K-
Nearest Neighbor (K-NN)

16
17

Anda mungkin juga menyukai