Anda di halaman 1dari 91

 

Bagaimana D
ata Mining B
ekerja 
Data mining se
benarnya menj
embatani dua 
teknologi, yait
u teknologi ya
ng berkenaan 
denagn inform
asi skala besar 
dengan teknol
ogi yang berke
naan dengan s
istem transaks
i dan analitikal
. Kedua teknol
ogi ini berkem
bang dan dike
mbangkan sec
ara terpisah, d
an data mining 
menjadi mata 
rantai yang m
enghubungkan 
keduannya. Da
ta mining soft
ware mengana
lisis hubungan 
dan pola dala
m data transa
ksi yang dismp
an secara elek
tronis melalui 
open-ended us
er queries. Per
angkat lunak a
nalitikal berma
cam-macam: s
tatistical, mac
hine learning, 
dan neural net
works. Perang
kat lunak ini u
mumnya menc
ari hubungan e
rikut. 1.
 
Classes: data 
digunakan unt
uk menentuka
n suatu atau b
eberapa kelom
pok yang mem
punya karakte
ristik tertentu. 
2.
 
Clusters: data i
tems dikelomp
okkan menuru
t hubungan ya
ng logis antara 
prefensi terten
tu. 3.
 
Associations: d
ata juga dapat 
“ditambang” u
ntuk menunjuk
an adanya kete
rkaitan.
 4.
 
Sequential patt
erns: data juga 
“ditambang” u
ntuk menganti
sipasi perilaku 
dan trens. Ini 
merupa
kanlangkah la
njutan dari clu
sters dan asso
ciations tadi. D
ata mining ter
diri atas ima u
nsur besar beri
kut. 1.
 
Menyarikan, m
engubah, dan 
mengirimkan (
extract, transf
orm, dan load) 
data transaksi 
ke data wareh
ouse system. 2
.
 
Menyimpan da
n mengelola (s
tore dan mana
ge) data terse
but multidime
nsional databa
se system. 3.
 
Memberikan d
ata acces kepa
da business an
alysts dan info
rmation techn
ology professio
nals, termasuk 
investigator da
n computer fin
ancial spesialis
t. 4.
 
Menganalisis d
ata dengan pe
rangkat lunak 
aplikasi. 5.
 
Menyajikan inf
ormasi dalam f
ormat yang te
pat guna, sepe
rti gambar, gra
fik, tabel, dan 
sebagainnya. 
Berikut berbag
ai tingkat anali
sis yang dapat 
digunakan. 1.
 
Artificial neural 
networks: mod
el-model predi
ktif non-
linier yang “bel
ajar” melalui p
elatihan dan 
menyerupai ja
ringan syaraf b
iologis dalam s
trukturnya. 2.
 
Genetic algorit
hms: Teknik-
teknik optimis
asi yang meng
gunakan prose
s seperti genet
ic combination
, mutation, da
n natural seect
ion dalam ranc
angan yang di
dasarkan atas 
konsep evolusi 
alamiah. 3.
 
Deciaion tress: 
pengungkapan 
struktur yang 
berbentuk poh
on untuk meng
gambarkan su
atu atau beber
apa set keputu
san. Keputusa
n-keputusan in
i akan mengha
silkan aturan u
ntuk mengklas
ifikasika suatu 
dataset. 4.
 
Nearest neigh
bor method: te
knik ini mengh
asilkan setiap r
ecord dalam d
ataset berdasa
rkan kombinas
i kelompok rec
ord k di mana 
k record mem
punyai ciri yan
g paling serup
a dalam histori
cal dataset. Te
knik ini terkad
ang juga diseb
ut k-nearest n
eighbor techni
que. 5.
 
Rule induction: 
penemuan rum
us”jika
-
maka” yang rel
evan dari datas
e
t berdasarkan 
signifikansi sta
tistikal.6.
 
Data visualizat
ion: merupaka
n interprestasi 
dengan pengin
deraan mata d
ari hubungan y
ang rumit dala
m data multidi
mensional. Unt
uk menggamb
arkan hubunag
n ini, peralatan 
grafis lazimny
a digunakan.
 
Infrastruktur 
Teknologi Ap
a yang Diibu
tuhkan 
Sekarang, dat
a mining appli
cations tersedi
a dalam siste
m untuk semu
a ukuran bagi 
mainframe, cli
ent/server, da
n PC platforms
. Terdapat dua 
hal kunci yang 
menetukan tek
nologi, yaitu b
esarnya datab
ase dan rumit 
atau kompleks
nya serta besa
rnya queries(p
ertanyaan yan
g akan diajuka
n si pemakai d
alam mempro
be data). 
Suatu Arsite
ktur untuk D
ata Mining 
Untuk menera
pkan tenik-
teknik data mi
ning yang mut
akhir denagn b
aik, peralatan i
ni sebaiknya t
erintegrasi pen
uh dengan dat
a warehouse d
an alat analisis 
bisnis interakti
f. Banyak data 
mining tools y
ang beroperasi 
di luar data wa
rehouse sehin
gga membutu
hkan langkah-
langkah tamba
han untuk dat
a extracing, da
n importing, d
an data analyz
ing. Ketika ada 
insight baru ya
ng memerluka
n implementas
i operasioanl, 
alat yang terin
tegrasi dengan 
warehouse me
mudahkan apli
kasi dari apa y
ang diahasilka
n dari data mi
ning. 
Data Interro
gation (Inter
ogasi Data) 
Dalam data int
errogation, seo
rang investigat
or (auditor) me
nganalisis data 
yang tersimpa
n dalam berm
acam-macam 
media penyim
panan data un
tuk menemuka
n sesuatu yan
g dicarinya. Ti
dak berbeda d
engan seorang 
auditor yang d
alam sistem m
anual, misalny
a mencari apa
kah ada faktur 
penjualan gan
da. Hanya saja 
data, data ters
impan secara 
digital, tidak la
ngsung dapat 
dibaca, dan ju
mlahnya bany
ak. Disinilah p
eluang untuk 
menggunakan 
perangkat luna
k untuk melak
ukan data inte
rrogation. Pera
ngkat 
lunak semaca
m ACL dapat m
embantu kita 
memilih “kolo
m
-
kolom” dari spr
ead sheet, tan
pa menggangg

integritas data
. Perangkat lun
ak membantu 
auditor atau in
vestigator mel
akukan data in
terrogation ata
u menimba da
ta yang diperlu
kan dari sumur 
yang besar da
n dalam. Sebel
um perangkat 
lunak mengha
silkan informas
i, investigator 
sudah harus m
erancang bent
uk dari laporan 
yang diinginka
nnya. Tidak ja
rang, investiga
tor harus meng
ubah “pertany
aan” yang diaj
ukannya. 
Karena itu, per
angkat lunak 
mendokument
asikan seluruh 
langkah ini ya
ng disebut co
mmand log. Pe
rangkat lunak 
mendokument
asikan seluruh 
langkah ini dal
am apa yang d
isebut comma
nd log. Perang
kat lunak berik
ut dapat melak
ukan data inte
rrogation lainn
ya yang bergu
na untuk audit 
atau investigat
ion lainnya ya
ng berguna un
tuk audit dan i
nvestigasi. 1.
 
Meng-extract 
data tertentu. 
Contohnya pa
da investigasi 
utang, data ya
ng di extract a
dalah nama pe
nyuplai, alama
t penyuplai, ta
nggal dan juml
ah invoice, ser
ta tanggal pe
mbayaran. Dal
am file utang, 
data tersebut 
disebut record 
atau field sepe
rti kolom dala
m spread shee
t. 2.
 
Meng-export r
ecord yang kit
a pilihuntuk m
enciptakan file 
baru yang aka
n kita gunakan 
dengan progra
m lain seperti 
Word atau Exc
el. 3.
 
Men-short data
, misalnya Sort 
menurut nama 
kota menunjuk
an ada puluha
n penyuplai di 
suatu kota yan
g memenuhi p
ersyaratan ten
der pengadaan 
pemerintah. N
amun, hanya d
ua dari merek
a yang mengik
uti tender ters
ebut. 4.
 
Meng-classify 
dan men-
summarize. Co
ntoh classify: d
ari buku pemb
elian diketahui 
pembelian per 
transaksi leng
kap dengan no
mor faktur dan 
nilai perfaktur. 
Kitabisa meng-
classify data p
embelian untu
k tahun 2006, 
misalnya men
urut penyuplai. 
Kita akan men
dapat banyakn
ya (lembar) da
n nilai total fak
tur dari setiap 
penyuplai, den
gan angka per
sentase (lemb
ar dan nilai fak
tur). 5.
 
Men-
summarize. Co
ntoh: persedia
an suku cadan
g di suatu peru
sahaan penerb
angan terdiri a
tas jutaan item 
dengan nilai to
tal hampir me
ncapai triliuna
n rupiah. Kitab
isa men-
summarize per
sediaan ini 
 
berdasarkan ni
lai per unit. Ha
sil summarize 
menunjukan d
ua ekstrim. Per
tama, ada beb
erapa item ya
ng niali per uni
tnya miliaran. 
Secara total, 
mereka melipu
ti 40% dari nila
i total persedia
an. Kedua, ada 
jutaan item ya
ng nilai per uni
tnya hanya rat
usan ribu rupia
h, dan secara t
otal meliputi 3
5% dari nilai to
tal persediaan. 
Sementara itu, 
persediaan lai
nnya terletak 
di antara kedu
a ekstrim. 6.
 
Men-stratify. C
ontoh: direktor
at Jenderl Paja
k ingin mnstrat
ifikasi para pe
mbayar pajak 
penghasilan di 
seluruh indone
sia. Data pemb
ayaran pajak d
apat distratifik
asi, misalnya b
erdasarkan inc
ome tax brack
et atau kelomp
ik penghasilan 
yang mempun
yai tarif pajak t
ersendiri. 7.
 
Melakukan ana
lisis umur (agi
ng analysis). C
ontoh analisis 
umur piutang, 
utang, persedi
aan barang, da
n lain-lain.8.
 
Menggabungk
an files, istilah 
tekns yang dip
akai bisa berm
acam-macam, 
seperti joining, 
relating, mergi
ng, dan lain-
lain. Menggab
ungkan files m
emungkinkan 
kita menghubu
ngkan data ya
ng berada dala
m beberapa fil
es sehingga kit
a mempunyai l
ebih banyak d
ata untuk di-
“manipulasi” le
bih lanjut. 
Dalam mengg
abungkan files
, juga ada kem
ungkinan data 
terkait tidak di
peroleh dalam 
files lainnya. U
nmatched reco
rds ini bisa kit
a teliti lebih la
njut. Contoh d
ari suatu curre
nt file yang ak
an digabung d
engan master 
file ditemukan 
puluhan penyu
plai yang aktif 
memasok bara
ng, tetapi mer
eka tidak mem
punyai data da
sar dalam mas
ter file. 9.
 
Melakukan sa
mpling. Dari d
ata yang bany
ak, perlu diam
bil contoh (sa
mples) untuk d
iperiksa. Hasil 
pemeiksaan sa
mple dipakai u
ntuk menarik k
esimpulan me
ngenai seluruh 
data (populati
on). Perangkat 
lunak dapat di
gunakan untuk 
emlakukan sa
mpling dengan 
bermacam tek
nik,s eperti ran
dom sampling, 
statistical sam
pling dan lain-
lain. Dalam sta
tistical samplin
g, kita juga da
pat menaksir j
umlah kesalah
an (error) dala
m population d
engan mengev
aluasi kesalah
an dalam sam
ple. 10.
 
Melakukan digi
tal analysis ber
dasarkan Benfo
rd’s Law. Ini ad
alah data inter
ogasi yang am
puh, tetapi 
hampir tidak di
kenal apalagi 
diprakktikan di 
Indonesia. Hal 
ini akan dijelas
kan dengan co
ntoh pengungk
apan fraud me
lalui mark-up. 
Analisis deng
an Mengguna
kan Benford’
S Law
 
Frank Benford, 
seorang ahli fi
sika yang beke
rja di GE Rese
arch Laborator
ies, New York 
membuat pen
gamatan seder
hana pada tah
un 1920-
an. Benford’S L
aw sangat me
mbantu auditor 
pada umumny

dan investigat
or pada khusu
snya dalam m
elihat indikasi 
terjadinya frau
d dari suatu da
ftar bilangan. 
Perangkat luna
k yang meney
diakan Benford 
analysis memu
ngkinkan inves
tigator memus
atkan perhatia
n pada potensi 
penyimpangan 
atau anomali. 
Perangkat luna
k ini tidak me
mbuktikan bah
wa fraud mem
ang terjadi. Ia 
hanya menunj
uk pada hal-
hal yang perlu 
pengkajian leb
ih lanjut atas d
asar perhitung
an-
perhitungan sa
tistik. Terdapat 
perangkat lu
nak dengan fu
ngsi Benford’S 
Law yang mem
baca nilai dala

kolom yang kit
a temukan, da
n me
meberi tahu ap
akah deretan b
ilangan “wajar” 
dalam suatu da
ftar yang meny
erupai naturall
y occuring data
. Makin banyak 
jumlah bilanga
n, makin banya
k Benford’S La

berfungsi. Pera
ngkat lunak m
enyediakan pe
ngjian digit per
tama (first-
digit test), digi
t kedua (secon
d-digit test), d
an pengujian d
ua digit perta
ma (first-two-
digits test). Pe
ngujian atas di
git pertama (fi
rst-digit test) d
igunakan untu
k menentukan 
kelayakan (rea
sonableness) d
ata yang akan 
diuji. Artinya, a
pakah data ya
ng 
kita periksa um
umnya memen
uhi “norma” (B
enford’S Law) 
atau perlu dika
ji lebih mendal
am. Perangkat 
lunak ini menu
njukan hal dal
am angka dan 
grafik

Anda mungkin juga menyukai