Jurnal Ilmiah Komputer Dan Informatika (KOMPUTA)
Jurnal Ilmiah Komputer Dan Informatika (KOMPUTA)
85
Vol. 5, No. 2, Oktober 2016, ISSN : 2089-9033
Maka dari itu CV. XYZ memerlukan penerapan data 2.2.2 Penjelasan Data
mining dengan metode clustering untuk membentuk Data awal yang telah dikumpulkan akan
segmentasi distributor berdasarkan data penjualan. dijelaskan pada tahap ini. Pada data terdapat 127
atribut, yaitu No, Tanggal, ID distributor, nama
2. ISI PENELITIAN distributor, alamat, serta penjualan dari setiap motif
Pada bagian ini akan dibahas mengenai tahapan dan nomor sepatu. Setiap motif memiliki 10 ukuran
penelitian yang dilakukan. sepatu yaitu 35 – 44 dan terdapat 12 motif yaitu TS,
2.1 Pemahaman Bisnis BR, PR, SP, RV, GP, QZ, HD, YN, HB, PD dan
Tujuan bisnis dari CV. XYZ adalah menjadi RN.
brand sepatu handmade terbesar di Indonesia. 2.2.3 Eksplorasi Data
Faktor penting agar tujuan bisnis CV. XYZ tercapai Tahapan eksplorasi data dapat membantu tujuan
yaitu dengan menjaga hubungan baik dengan dari data mining. Dalam penelitian ini eksplorasi
distributor, dan terus meningkatkan pelayanan data meliputi analisis deskriptif. Data yang akan
terhadap distributor dalam penyediaan dan digunakan untuk tahap eksplorasi data ini adalah
pendistribusian produk yang sesuai dengan data penjualan sepatu berdasarkan motif dan ukuran
permintaan pasar. pada data penjualan bulan Januari 2016.
Penentuan sasaran data mining terdiri dari tujuan 1. Analisis Deskriptif
dan kriteria sukses data mining. Berikut ini Analisis deskriptif ini dilakukan untuk
merupakan tujuan dan kriteria sukses data mining : mendeskripsikan atau menjelaskan kelompok data.
1. Tujuan data mining Atribut yang akan digunakan dalam analisis
Tujuan dari penerapan data mining dalam deskriptif ini adalah atribut jumlah penjualan sepatu
penelitian ini yaitu untuk membentuk kelompok berdasarkan motif dan ukuran. Analisa dilakukan
distributor di CV. XYZ. Kelompok ini akan pada atribut tersebut karena atribut pengelompokan
digunakan oleh bagian pemasaran CV. XYZ sebagai yang akan dilakukan berdasarkan pada jumlah
pertimbangan strategi pendistribusian produk kepada penjualan sepatu berdasarkan motif dan ukuran. Ada
distributor. beberapa nilai yang akan dicari dalam analisis
2. Kriteria sukses data mining deskriptif ini, yaitu :
Kriteria sukses dalam penelitian ini yaitu apabila a. Nilai Minimum
mampu membantu bagian pemasaran CV. XYZ Nilai minimum digunakan untuk mengetahui
dalam mengelompokkan distributor yang memiliki berapa jumlah penjualan yang paling sedikit.
karakteristik yang sama dalam penjualan produk. Dengan mengetahui nilai minimum akan
2.2 Pemahaman Data memberikan gambaran berapa nilai terkecil dari
Tahap pemahaman data merupakan tahapan data penjualan produk sebelum dilakukan
kedua yang di dalamnya terdapat beberapa tugas, proses data mining.
yaitu : b. Nilai Maksimum
2.2.1 Pengumpulan Data Awal Nilai maksimum digunakan untuk mengetahui
Data awal yang telah dikumpulkan adalah data berapa jumlah penjualan yang paling banyak.
penjualan dari bulan Januari sampai April 2016. Dengan mengetahui nilai maksimum akan
Data yang digunakan untuk pemodelan pada memberikan gambaran berapa nilai terbesar dari
penelitian ini adalah data penjualan pada bulan data penjualan produk sebelum dilakukan
Januari 2016. Data penjualan yang akan digunakan proses data mining.
tersebut berupa file yang memiliki format *.xls atau c. Nilai Rata-rata
*.xlsx. Berikut ini merupakan sebagian data awal Nilai rata-rata digunakan untuk mengetahui
yang merupakan data penjualan pada bulan Januari berapa jumlah rata-rata penjualan produk.
2016 : Dengan mengetahui nilai rata-rata ini akan
No Tanggal
ID
Dis tributor
Distributor Alamat
TS
35 36 37 38 39 40
Total Total Harga memberikan gambaran berapa nilai rata-rata
1 5-Jan-16 1 Rani Majalengka 0 1 0 0 0 0 26 2,444,000.00 dari data penjualan produk sebelum dilakukan
2 8-Jan-16 2 Kurniawan Bandung Barat 0 0 0 2 0 0 54 5,076,000.00
3 9-Jan-16 3 Wulandari Medan 0 0 0 1 0 0 24 2,256,000.00 proses data mining. Nilai rata-rata didapatkan
4 13-Jan-16 4 Eni Surabaya 0 0 1 0 1 0 53 4,982,000.00
5 15-Jan-16 5 Poppy Bandung 0 0 3 0 0 0 23 2,162,000.00 dengan menggunakan persamaan berikut :
6 15-Jan-16 6 Renny Jakarta Barat 0 0 0 0 0 0 47 4,418,000.00
∑
7
8
16-Jan-16
18-Jan-16
7
8
Hani
Endri
Bandung
Yogyakarta
0 5 2 2 0 0
3 0 0 0 0 0
55
28
5,170,000.00
2,632,000.00
= (1)
9
10
18-Jan-16
21-Jan-16
9
10
Ibeth
Eerstiana
Tangerang
Tangerang
0 0 0 0 0 0
0 0 0 0 3 0
...
21
17
1,974,000.00
1,598,000.00 d. Standar Deviasi
11
12
22-Jan-16
23-Jan-16
11
12
Jay Ezah
Heppi
Brunei Darussalam
Lombok
0 7 5 4 0 0
0 5 2 2 0 0
58
59
5,452,000.00
5,546,000.00
Standar deviasi ini digunakan untuk
13
14
25-Jan-16
25-Jan-16
13
14
Zulaikha
Cut Opie
Bogor
Lhoksemawe
0 0 0 0 0 0
1 8 3 4 0 0
16
64
1,504,000.00
6,016,000.00
menggambarkan bagaimana penyebaran data
15
16
27-Jan-16
27-Jan-16
15
16
Ema
Lina
Lamongan
Sidoarjo
0 0 0 0 0 0
0 0 0 0 0 0
22
15
2,068,000.00
1,410,000.00
dari rata-rata jumlah. Dengan mengetahui nilai
17 27-Jan-16 17 Misrah Cimahi 0 0 0 0 0 0 16 1,504,000.00 standar deviasi ini maka akan memberikan
18 27-Jan-16 18 Dewi Soreang 0 0 0 1 0 0 23 2,162,000.00
19 28-Jan-16 19 Mike Sariang Situbondo 0 0 0 2 0 0 50 4,700,000.00 bagaimana simpangan rata-rata dari data yang
20 29-Jan-16 20 Syanah Serang 0 0 0 0 0 0 41 3,854,000.00
akan diteliti sebelum proses data mining.
Gambar 1. Data Penjualan Bulan Januari 2016
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)
87
Vol. 5, No. 2, Oktober 2016, ISSN : 2089-9033
Standar deviasi dicari menggunakan persamaan ID Distributor TS_35 TS_36 TS_37 TS_38 TS_39 TS_40
1 0 1 0 0 0 0
RN_42 RN_43 RN_44
1 5 2
berikut ini : 2 0 0 0 2 0 0 0 3 4
3 0 0 0 1 0 0 0 0 0
∑( ̅) 4 0 0 1 0 1 0 0 1 2
= (2) 5 0 0 3 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0
e. Nilai Kuartil dan IQR (Interquartile Range) 7 0 5 2 2 0 0 0 0 0
8 3 0 0 0 0 0 0 4 0
Nilai kuartil ini dapat digunakan untuk 9 0 0 0 0 0 0 0 0 0
mendeteksi nilai outlier. Nilai kuartil dan IQR 10 0 0 0 0 3 0 ... 0 0 0
11 0 7 5 4 0 0 0 0 0
dapat dicari dengan menggunakan persamaan 12 0 5 2 2 0 0 0 0 0
berikut ini : 13
14
0
1
0
8
0
3
0
4
0
0
0
0
0
0
0
3
0
2
( )
= (3) 15
16
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.2.4 Evaluasi Kualitas Data 17
18
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
Evaluasi kualitas data dilakukan terhadap atribut 19 0 0 0 2 0 0 0 3 3
20 0 0 0 0 0 0 0 0 0
jumlah pembelian berdasarkan motif dan ukuran.
Gambar 2. Penyiapan Data Awal
Berikut ini merupakan hasil evaluasi dari atribut-
atribut tersebut :
2.4 Pemodelan
a. Missing value mungkin saja ditemukan pada
Pada tahap ini akan dilakukan pemodelan, pada
data penjualan tetapi pada data penjualan bulan
tahap ini memiliki beberapa tugas yaitu pemilihan
Januari 2016 yang terdapat pada lampiran F,
teknik pemodelan, penjelasan mekanisme model,
tidak terdapat missing value.
serta pengujian model pada data yang telah
b. Berdasarkan data penjualan bulan Januari 2016
disiapkan sebelumnya.
akan dilihat apakah terdapat outlier atau tidak,
2.4.1 Teknik Pemodelan
persamaan berikut ini merupakan cara yang
Teknik pemodelan yang akan digunakan yaitu
dapat dilakukan untuk menemukan data
menggunakan hierarchical clustering, dan model
outlier:
yang akan digunakan yaitu algoritma Agglomerative
ℎ= + (3 × ) (4)
Hierarchical Clustering (AHC).
= + (6 × ) (5)
2.4.2 Mekanisme Pemodelan
2.3 Persiapan Data
Tahap ini menjelaskan mengenai mekanisme
Tahapan ini mencakup semua kegiatan yang
dari model yang akan digunakan serta asumsi awal
diperlukan untuk membangun data set akhir (data
dari model. Model algoritma agglomerative
yang akan dimasukkan ke dalam pemodelan),
hierarchical clustering memiliki tahapan sebagai
terdapat beberapa tugas dalam tahap ini, yaitu:
berikut:
2.3.1 Pemilihan Data
1. Setiap objek data dianggap sebagai cluster. Jika
Pemilihan data memiliki tugas meliputi
n = jumlah data dan k = jumlah cluster, maka k
pemilihan atribut. Atribut yang dipilih untuk
= n.
melakukan proses pengelompokan (clustering).
2. Menghitung matriks jarak antar cluster
Atribut yang akan dipakai dalam proses clustering
(menggunakan euclidean distance yang terdapat
antara lain, ID distributor dan jumlah penjualan
pada persamaan (2.6)).
sepatu berdasarkan motif dan ukuran.
3. Cari dua cluster yang mempunyai jarak paling
2.3.2 Pembersihan Data
dekat (single linkage yang terdapat pada
Pada proses ini dilakukan proses pembersihan
persamaan (2.7)) lalu gabungkan dua cluster
data, berdasarkan hasil evaluasi kualitas diperoleh
tersebut, sehingga k = k-1.
hasil sebagai berikut:
4. Jika k > 1, ulangi langkah 2 dan 3.
1. Pada data penjualan bulan Januari 2016 missing
5. Jika k = 1, perulangan selesai.
value tidak ditemukan, tetapi jika terdapat missing
6. Menghasilkan cluster dengan memotong
value, maka nilai yang hilang tersebut akan diisi
dendrogram pada tingkat yang tepat.
dengan nilai default yaitu 0.
2.4.3 Analisis Pengujian Model
2. Nilai yang bersifat outlier akan tetap diproses,
Data yang digunakan untuk melakukan
karena algoritma yang digunakan tidak terlalu
pemodelan ini adalah data penjualan pada bulan
terpengaruh oleh outlier.
Januari 2016. Jumlah data yang akan digunakan
2.3.3 Penyiapan Data Awal
adalah sebanyak 20 record, seperti terlihat pada
Pada proses penyiapan data awal akan disiapkan
Tabel 3.12. Kasus yang akan diuji dengan
data yang akan digunakan di tahap pemodelan. Data
menggunakan algoritma AHC adalah sebagai
yang akan digunakan dalam tahapan pemodelan
berikut:
adalah data penjualan bulan Januari 2016 yang telah
1. Ubah setiap data menjadi cluster
mengalami proses perubahan atribut untuk motif dan
Inisialisasi cluster awal adalah sebanyak 20 cluster
nomor sepatu yang digabungkan dengan tanda
karena data (n) = cluster (k), kemudian dihitung
underscore.
jarak antara cluster dengan cluster yang ada dengan
menggunakan persamaan Euclidean Distance.
Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)
88
Vol. 5, No. 2, Oktober 2016, ISSN : 2089-9033
(0 0) + (1 0) + (0 0) + (0 2)
+(0 0) + (0 0) + (0 0) + (0 0)
(1,2) = = 12.49
…
+(0 3) +(0 0) +(0 0) +(0 0)
Gambar 3. Hasil Akhir Dendrogram
6. Menghasilkan cluster dengan memotong
Dengan cara yang sama yaitu dengan
dendrogram pada tingkat yang tepat
menggunakan persamaan Euclidean Distance
Berdasarkan dendrogram yang telah dibentuk,
dilakukan perhitungan terhadap seluruh data. Dari
tingkat yang tepat atau jumlah cluster terbaik akan
proses perhitungan Euclidean Distance maka akan
ditentukan dengan melihat selisih jarak dari setiap
dihasilkan matriks jarak.
cluster yang terbentuk. Untuk mengetahui jumlah
3. Mencari dua cluster yang saling berdekatan
cluster terbaik salah satu caranya dapat
Pada tahapan ini akan dihitung jarak antara dua
menggunakan agglomeration schedule.
cluster dengan menggunakan single linkage
(persamaan 2.7), dengan metode ini akan mencari Kombinasi Cluter Iterasi Kom binasi Cluster sebelumnya Iterasi
Iterasi Koofisien
jarak yang paling dekat dari dua cluster. Cluster 1 Cluster 2 Cluster 1 Cluster 2 Selanjutnya
1 2 19 2.00 0 0 3
Iterasi ke-1 : 2 6 20 3.16 0 0 5
sampai dengan : 6
7
10
16
13
17
7.42
7.55
0
0
0
0
8
8
( , ) = min ( , ) , ( , ) 8 10 16 7.81 6 7 10
9 6 11 8.19 5 0 19
Dengan metode single linkage pada setiap iterasi dua 10 10 18 8.43 8 0 11
Selisih terbesar yaitu 1.80 sehingga jumlah Dari hasil pengelompokan distributor
cluster terbaik adalah 3 cluster. Maka, dendrogram berdasarkan penjualan sepatu didapatkan hasil
hasil pengelompokan berdasarkan ukuran akan penjualan tertinggi dari setiap cluster yaitu sebagai
dipotong seperti berikut : berikut :
Tabel 4. Penjualan Tertinggi Pada Setiap Cluster
Motif dan
Cluster Ukuran Jumlah
Cluster 1 QZ_40 28
HB_38 16
Cluster 2 HB_39 16
PD_39 16
RV_42 10
Cluster 3
HB_40 10
DAFTAR PUSTAKA
[1] S. B, Data Mining Teknik Pengumpulan Data [8] B. Susanto, “Data Preprocessing,” Versi 1.2,
Untuk Keperluan Bisnis, Yogyakarta: Graha 2013.
Ilmu, 2007. [9] P. Berkhin, “Survey of Clustering Data Mining
[2] “CRISP-DM 1.0 Step-by-step data mining Techniques”.
guide,” 2000. [10] F. A. Hermawati, Data Mining, Yogyakarta:
[3] Fathansyah, Basis Data, Informatika, 2015. Andi, 2013.
[4] R. Ramakrishnan dan J. Gehrke, Database [11] R. Xu dan D. Wunsch, Clustering.
Management System Third Edition, Singapore, [12] M. Caccam dan J. Refran, “Cluster Analysis”.
2003. [13] A. Nugroho, Rekayasa Perangkat Lunak
[5] J. Han dan M. Kamber, Data Mining : Concepts Berorientasi Objek dengan Motode USDP,
and Techniques, 2006. Yogyakarta: Andi, 2010.
[6] T. Badriyah, “Penanganan Missing Value dan [14] Suryana, Model Prakatis Penelitian Kuantitatif
Outlier”. dan Kualitatif, 2010.
[7] Sunitha, M.BalRaju, J.Sasikiran dan V. R. ,
“Automatic Outlier Identification in Data
Mining Using IQR in Real-Time Data,”
International Journal of Advanced Research in
Computer and Communication Engineering,
vol. 3, no. 6, 2014.