Anda di halaman 1dari 9

Contoh Kasus Data Mining Dalam Sistem Berkas

Contoh Data Mining dalam Sistem Berkas


Di zaman sekarang ini, banyak hal yang dapat kita lakukan. Sebagian besar dari halhal tersebut pastilah sangat membutuhkan teknologi. Dalam bidang apapun, semua pasti
membutuhkan yang namanya teknologi. Entah itu dalam bidang pendidikan, kesehatan,
keuangan, olahraga, dan masih banyak lagi, semua itu sangat sulit untuk dipisahkan
dengan kata Teknologi.
Di zaman yang penuh akan teknologi ini, tentunya kitapun akan lebih mudah untuk
mendapatkan atau mengakses informasi. Pada awalnya saya setuju dengan kalimat Kita
hidup di zaman Informasi, akan tetapi setelah mengikuti perkuliahan Data Mining, ternyata
yang benar adalah kita hidup di zaman data. Bagaimana tidak, di dunia ini ada begitu
banyak data yang tersimpan, walaupun memang banyak yang telah digali informasi dari
data tersebut. Namun tak sedikit data yang tersimpan dan informasinya tidak di ambil, dan
hanya akan membuat kuburan data. Disinilah peran data mining.
Data mining sebagai cabang ilmu dalam bidang IT, cukup banyak memberikan
peranan dalam berbagai bidang. Termasuk di bidang Olahraga. Contoh kasus data mining
yang akan saya angkat disini adalah mengenai Sponsorship antara suatu perusahaan atau
brand tertentu dengan salah satu klub atau instansi olahraga.
Di sini saya akan coba untuk melihat dari segi pandang sponsorship, bagaimana cara
agar bisa mendapatkan keuntungan dari klub atau instansi yang di sponsorinya. Kita pasti
sudah sama-sama tahu kalau pihak klub pastinya akan mendapatkan untung besar dengan
adanya sponsor. Contohnya saja FIFA, apakah anda masih ingat ajang bergengsi sepakbola
dunia yang diselenggarakan 4 tahun sekali? ya, FIFA World Cup atw orang Indonesia biasa
menyebutnya Piala Dunia. pada ajang tersebut nilai kontrak para sponsor bisa dibilang
sangat tinggi jika dibandingkan dengan penyelenggaraannya. Pada Piala Dunia 2006 saja
FIFA berhasil meraup keuntungan dari pihak sponsor sebesar US$ 875 juta. Sedangkan
pada pagelaran Piala Dunia terakhir tahun 2010 FIFA berhasil mendapatkan keuntungan
sebesar 1,65 miliar pounds. Itu hanya keuntungan, bukan pendapatan. Namun bagaimana
dengan pihak sponsor? apakah yang mereka dapatkan dengan mempercayakan dana dan
brandnya kepada FIFA?
Tentu disini ada hubungan timbal balik antara sponsor dengan klub yang samasama saling menguntungkan. Kalau diatas kan sudah saya jelaskan keuntungan yang
didapatkan pihak sponsor, sekarang saya akan mencoba melihat apakah keuntungan yang
di terima sponsor sebanding dengan pengorbanannya. Pada ajang Piala Dunia, para
sponsor rela untuk mengeluarkan dana besar hanya untuk menjadi sponsor utama. Paling
tidak nama brand dan pesan-pesan nya dapat terlihat oleh banyak orang, walaupun hanya
sekitar sepersepuluh penduduk bumi.
Menurut saya disinilah peran data mining, para sponsor akan mendapatkan data
yang dapat menjadi informasi penting yang dapat menguntungkan brand atau produknya.
Misalnya saja ada sebuah sponsor yang menjadi sponsor untuk beberapa klub olahraga
dari berbagai negara di dunia. Tentunya mereka akan mendapatkan data dimana hasil
penjualan produknya paling tinggi, dengan begitu mereka dapat meningkatkan produksi di
tempat tersebut. Belum lagi jika yang di sponsori, misalnya suatu ajang bergengsi yang
disiarkan ke berbagai tempat. Tentunya mereka akan mendapatkan data dimana ajang
tersebut disiarkan dan mendapatkan informasi dimana produk mereka laku keras.
Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas


Setelah saya membaca beberapa artikel mengenai sponsoship, ternyata ada konsep
sponsorship yang baik. Yaitu konsep SISOMO yaitu konsep sponsorship yang mampu
memacu emosi customer, yaitu melibatkan sight, sound and motion. atau pandangan,
suara, dan gerakan. Namun belum tentu semua sponsor mendapatkan keuntungan dari
kegiatan sponsorship. Sponsor yang baik adalah sponsor yang mampu meningkatkan
tingkat kesadaran konsumen dan meningkatkan penjualan. Sedangkan sponsor yang gagal
adalah sponsor yang tidak mampu membangun kesadaran konsumen dan hanya akan
membuang-buang dana. Bagaimanapun juga data mining hanya mengambil keteraturan
pola dari masa lalu, dan kita tidak dapat melihat perubahan di masa depan. sekali lagi, data
mining hanya merupakan alat bantu untuk melihat alur dan memanfaatkanya untuk
mendapatkan keuntungan.
Data Mining (Attributes)
Nominal Attribute
Nominal Attribute merupakan jenis atribut yang nilainya berupa symbol ataupun nama
sesuatu seperti benda atau sifat. Susunan atau pun urutan dari Nominal attribute tidaklah
penting. Nilai dari Nominal Attribute juga memiliki batasan.
Contoh:
1. Warna kulit = {hitam, coklat, sawo matang, putih}
2. Mata kuliah = {data mining, kalkulus, pemrograman, jaringan computer}
3. Fakultas = {Teknik, pertanian, hukum, ekonomi}
4. Golongan Darah ={A,B,O,AB}
5. Jabatan ={Direktur, Manager, Karyawan, General Manager}
Binary Attribute
Binary Attribute merupakan jenis atribut yang mempunyai hanya dua nilai, yaitu 1 dan 0.
Bisa juga dikatakan ya atau tidak.
Contoh:
1. Jenis Kelamin = {Pria, Wanita}
2. Kehamilan = {Positif, Negatif}
3. Pintu = {Terbuka, Tertutup}
4. Lampu = {Nyala, Mati}
5. Peringkat Lomba= {Kalah, Menang}
Ordinal Attribute
Ordinal Attribute merupakn jenis atribut yang memiliki nilai yang dapat berarti apabila
diurutkan, baik dari tinggi ke rendah maupun dari rendah ke tinggi, namun jarak antara
setiap nilai tersebut tidak diketahui berapa besar nilainya.
Contoh:
1. Ukuran baju = {S,M,L,XL}
2. Tingkatan Kepuasan = {kurang puas, cukup puas, puas, amat puas}
3. Rupa = {jelek, cantik, tampan}
4. Kecepatan = {sangat lambat, lambat, cepat}
5. Berat badan = {kurus, ideal, gemuk}
Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas


Numeric Attribute
Numeric Attribute merupakan jenis atribut yang memiliki nilai yang dapat diukur atau
dihitung, dapat berupa nilai integer ataupun real. Numeric Attribute juga tidak mempunyai
nilai nol, maksudnya disini, angka nol pada Numeric Attribute juga memiliki arti ataupun
nilai. Contoh: Suhu, Kecepatan, Ukuran pada Kaca Mata Ukur, Tahun, Tingkat Kecerahan
pada Monitor
Data Mining (Outlier)
Outlier merupakan suatu nilai dari pada sekumpulan data yang lain atau berbeda
dibandingkan biasanya serta tidak menggambarkan karakteristik data tersebut. Pada
bahasan kali ini, saya akan mencoba mengemukakan cara untuk mengidentifikasi outlier
tersebut. Tentunya apabila kita ingin mengidentifikasi outlier, terlebih dahulu harus ada
contoh kasus yang dapat kita identifikasi outlier didalamnya.
Sebagai contoh kasus kali ini, saya mengambil contoh pada penjualan BBM jenis premium
di SPBU. Misalnya, sebuah SPBU dalam satu bulan bisa menjual premium kurang lebih
sebanyak 150.000 liter. Di sini saya akan perkecil menjadi satu minggu, di mana ada satu
hari dalam seminggu tersebut ada penjualan yang lain dibandingkan hari-hari lainnya.
Datanya bisa di lihat pada tabel di bawah ini.

Tabel Penjualan Premium Dalam 1 Minggu


Dari data diatas, kita dapat mengidentifikasi outlier dengan 2 cara yaitu:
Berdasarkan Teknik Statistik
Cara ini paling simple untuk mengidentifikasi outlier dari data satu dimensi. Pertama kita
tentukan rata-rata dan standar deviasi. Kemudian akan terbentuk threshold (rata-rata 2
standar deviasi, rata-rata + 2 standar deviasi). Kemudian semua data yang berada diluar
kisaran threshold, maka berpotensi untuk dianggap sebagai outlier.
Berdasarkan Jarak
Cara ini digunakan untuk mengatasi keterbatasan cara statistik. Perbedaan cara ini dengan
cara sebelumnya, yaitu cara ini di pakai untuk mendeteksi outlier pada data dengan multi
dimensi. Cara yang digunakan adalah dengan mengevaluasi nilai jarak antara setiap data
pada data multi dimensi. Sama seperti cara statistik, awalnya kita tentukan threshold, lalu
yang berada diluar jangkauan threshold, maka akan dianggap sebagai outlier. Intinya, pada
Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas


cara ini akan dicari data-data yang memiliki jumlah data sebelum atau selanjutnya yang
paling banyak dari pada jarak yang sudah ditentukan.
Pada data diatas, tentunya akan lebih mudah jika kita menggunakan cara statistik. Kita
mendapatkan rata-rata: 4159.36 dan standar deviasi: 1576.93. Lalu akan didapatkan
threshold {1002.48 , 7313.24 }. Jadi, data ke-6 (7948.03) dianggap sebagai outlier karena
berada diluar range threshold. Dengan mengetahui outlier ini, pemilik SPBU akan dapat
mendeteksi apakah kesalahan yang terjadi pada tanggal 6 Desember tersebut.
Kesimpulan: Kedua cara diatas dapat kita gunakan untuk mencari atau mengidentifikasi
outlier, soal yang mana yang dapat lebih diandalkan, itu tergantung dari data yang akan
dicari outliernya. Apabila data tersebut satu dimensi, tentunya akan lebih mudah cara yang
pertama. Namun apabila data dengan multi dimensi, akan sangat sulit jika kita
menggunakan cara pertama, jadi akan lebih mudah menggunakan cara kedua. Jadi, itu
semua tergantung dari data yang akan kita identifikasi outliernya.
Data Mining (Chernoff Faces)

Data Base Arsip Penyimpanan Film


Dari data base diatas, kita akan mengubanya dalam bentuk visualisasi Chernoff Faces
dengan ketentuan sebagai berikut:

Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas

Setelah itu, kita akan mendapatkan hasil dari visualisasi Chernoff Faces secara berturutturut sebagai berikut:

Chernoff Faces
Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas


Dari hasil visualisasi diatas, kita dapat melihat bahwa bentuk muka yang paling banyak
adalah bentuk segiempat dengan sudut tajam, dimana ini artinya film dengan quality
BluRay 720p paling banyak di database tersebut. Disini kita juga bisa melihat mata
berbentuk garis dengan mulut yang berbentuk kurva kebawah selalu berpasangan, begitu
juga mata berbentuk titik dengan mulut berbentuk kurva keatas selalu berpasangan. Hal ini
menandakan bahwa bulan Juli sampai Desember adalah tahun 2011, sedangkan bulan
Januari sampai Maret adalah tahun 2012.

Data Mining (Proximity Measures)

a. Euclidean Distance
b. Manhattan distance

Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas


c. Minkowski distance
h=3

d. Supremum distance

Data Mining (Data Preprocessing)

Database diatas masih belum sempurna, itulah gunanya Data Preprocessing yaitu untuk
melihat data-data yang tidak lengkap, tidak akurat, hilang dan permasalahn data yang
lainnya. Dari database diatas, saya akan mengidentifikasi tiga yaitu inaccuracy,
incompleteness, dan inconsistency.
inaccuracy (tidak akurat),dari database diatas data yang tidak akurat yaitu pada
atribut pendapatan, di situ digunakan simbol itu menandakan bahwa data
Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas


tersebut tidak akurat, harusnya ada nilai yang tepat untuk pendapatan setiap orang.
Di situ juga tidak dicantumkan pendapatan apakah perbulan atau per minggu, hal
tersebut juga perlu untuk meningkatkan ke-akuratan data.
incompleteness(tidak lengkap), dari database diatas, ada data yang kosong, data
tersebutlah yang dinamakan incompleteness. Hal tersebut dapat terjadi akibat
kesalahan komputer ataupun human error.
inconsistency (tidak konsisten), dari databse diatas, data yang tidak konsisten adalah
pada atribut Tempat, Tanggal Lahir dan Pendapatan. Cara penulisan tanggal
yang berbeda-beda dan penulisan mata uang yang berbeda-beda ini yang disebut
dengan inconsistency.
Untuk mengatasi masalah-masalah diatas dapat diatasi dengan melakukan data cleaning
sehingga data-data yang bermasalah dapat diperbaiki sehingga menjadi data yang baik dan
dapat dimengerti.
Data Mining (Data Preprocessing 2)
Data pemasukan siswa (dalam ribu rupiah):
a
=
xx
*
10
;
b
d
=
xx
*
12
;
e
g
=
xx
*
17
;
h
j
=
xx
*
23
;
k
m
=
xx
*
35
;
n
p
=
xx
*
31
;
q
s
=
xx
*
13
;
t
v
=
xx
*
27
;
w
y = xx * 43 ; z = xx * 11 ; aa = xx * 37

=
=
=
=
=
=
=
=

xx
xx
xx
xx
xx
xx
xx
xx

*
*
*
*
*
*
*
*

15
19
18
29
24
32
20
33

;
;
;
;
;
;
;
;

c
f
i
l
o
r
u
x

=
=
=
=
=
=
=
=

xx
xx
xx
xx
xx
xx
xx
xx

*
*
*
*
*
*
*
*

13
16
14
26
25
28
34
50

;
;
;
;
;
;
;
;

Dari data diatas, kita akan melakukan proses Smoothing Data melakukan Median Binning
Technique untuk mengurangi Noisy Data.
Dengan menggunakan xx=53 maka diperoleh data:

Asep Jalaludin, S.T.,M.M.

Contoh Kasus Data Mining Dalam Sistem Berkas


Setelah itu, kita lakukan sorting data dan bagi data yang sudah diurutkan tersebut kedalam
3 partisi. Sehingga data tersebut menjadi:

Setelah itu, cari median dari setiap bin. Sehingga data tersebut menjadi:

Jadi hasil dari Smoothing menggunakan bin median:


Bin 1 : 689, 689, 689, 689, 689, 689, 689, 689, 689
Bin 2 : 1272, 1272, 1272, 1272, 1272, 1272, 1272, 1272, 1272
Bin 3 : 1802, 1802, 1802, 1802, 1802, 1802, 1802, 1802, 1802

Asep Jalaludin, S.T.,M.M.