Anda di halaman 1dari 60

PENGAN

TAR
DATA
MINING
PROGRAM PASCA SARJANA
PROGRAM STUDI MAGISTER
TEKNIK ELEKTRO
UNIVERSITAS UDAYANA

NI KADEK ARIASIH,S.KOM 1)

PUTU BENNY
ADNYANA,S.KOM 2),
3),
SATRIA PRATAMA,ST

I GUSTI AYU AGUNG DIATRI


INDRADEWI,S.KOM 4)
KATA PENGANTAR

Puji syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa atas
segala berkat dan rahmat-Nya sehingga paper mata kuliah Data Mining yang
berjudul “Pengantar Data Mining” ini dapat diselesaikan tepat pada waktunya.
Paper ini merupakan sebuah pengantar awal sebelum memahami lebih
mendalam mengenai Data Mining. Penulis berharap paper ini dapat memberikan
gambaran secara umum yang cukup jelas mengenai apa itu Data Mining.
Penulis menyadari sepenuhnya bahwa paper ini masih jauh dari sempurna
mengingat keterbatasan pengetahuan dan kemampuan penulis, oleh karena itu
kritik dan saran dari semua pihak yang bersifat membangun selalu penulis
harapkan demi kesempurnaan paper ini. Akhir kata, penulis berharap semoga
paper ini bermanfaat bagi semua pihak yang berkompeten.

Denpasar, 26 Februari 2011

Penulis
DAFTAR ISI
DAFTAR TABEL
DAFTAR GAMBAR
Bab 1
PENGANTAR DATA MINING DAN
PROSES DATA MINING

Bab ini merupakan pengantar awal mengenai data mining yang akan
memberikan gambaran mengenai apa yang dimaksud dengan data mining dan
aktivitas apa saja yang yang terkait dengan data mining.

1.Mengapa Data Mining?


Orang-orang telah mencatat dan mengekstraksi pengetahuan dari sekumpulan
data sejak awal peradaban. Gambar-gambar yang terdapat pada dinding-dinding di
gua Arles, tulisan-tulisan kuno pada lempengan tanah liat yang
mendokumentasikan bongkar muat kapal pada zaman Babilonia kuno, dan batu
Rosetta merupakan beberapa contoh yang menggambarkan karakteristik manusia
dalam memahami dunia melalui catatan-catatan simbolis atau numeris. Gambar-
gambar pada dinding gua merupakan catatan yang menceritakan pengalaman
mereka sehari-hari di zaman itu, seperti kehidupan, kematian, masa perburuan,
masa panen, merayakan hari besar (berpesta), dan masa berkeluarga. Tulisan-
tulisan kuno pada lempengan tanah liat merupakan catatan mengenai rincian
aktivitas perdagangan mereka di zaman itu, seperti mengukur bobot dan
menghitung jumlah batu berharga atau menghitung jumlah dan volume dari
amphorae yang diisi dengan minyak zaitun. Sedangkan batu Rosetta membuka
jalan dalam memecahkan makna dari tulisan hieroglif milik bangsa Mesir [1].
Di manapun dan kapanpun, orang-orang selalu menggambarkan dan mencatat
peristiwa-peristiwa pada kehidupannya dalam berbagai media perekaman. Pelaku
data mining yang pertama kali mencatat peristiwa dalam kehidupannya melalui
gambar-gambar yang dibuat pada dinding gua untuk menggambarkan dan
memprediksi aktivitas manusia di masa itu. Di wilayah Laut Mediterania kuno,
orang-orang telah dapat menggambarkan dan memprediksi pola perdagangan dan
akibat dari cuaca yang berubah-ubah terhadap hasil panen dari pohon zaitun.
Catatan-catatan yang mereka buat di lempengan tanah liat sebenarnya merupakan
cikal bakal dari lahirnya sistem database modern [1].
Kemajuan dalam akuisisi data digital dan teknologi penyimpanan telah
berdampak pada berkembangnya database yang menjadikannya berukuran sangat
besar. Hal ini telah terjadi di segala bidang yang ditekuni oleh manusia, mulai dari
bidang umum (data transaksi supermarket, rekaman penggunaan kartu kredit,
rincian panggilan telepon, dan statistik pemerintahan) hingga bidang yang lebih
khusus (citra benda-benda luar angkasa, database molekular, dan rekam medis).
Kini, ukuran database telah mencapai satuan terabytes yang berarti telah
mencapai lebih dari 1.000.000.000.000 bytes data. Di dalam data berukuran sangat
besar ini terdapat informasi tersembunyi yang sangat berharga. Sehingga tidak
mengherankan jika kini perhatian telah bergeser dari perekaman data ke ekstraksi
informasi berharga yang dapat dimanfaatkan oleh pemilik database. Ketika
terdapat banyak sekali pohon di suatu hutan, bagaimana cara memperoleh
gambaran yang berarti mengenai hutan tersebut? Hal tersebutlah yang dilakukan
oleh data mining. Ketika tersedia data yang jumlahnya sangat besar, data mining
digunakan untuk memperoleh informasi berharga dari kumpulan data tersebut [2].
Dalam beberapa tahun terakhir, data mining telah menarik sejumlah besar
perhatian dalam industri informasi dan masyarakat secara keseluruhan, karena
ketersediaan sejumlah besar data yang beragam dan kebutuhan untuk mengubah
data tersebut menjadi informasi dan pengetahuan yang berguna. Informasi dan
pengetahuan yang dihasilkan dapat digunakan untuk berbagai aplikasi, mulai dari
analisis pasar, deteksi penipuan, retensi pelanggan, mengendalikan produksi, dan
eksplorasi ilmu pengetahuan [3].
Data mining dapat dipandang sebagai hasil evolusi alami dari statistical
computing, market research/cognitive science, artificial inteligence, executive
information/decision support, data warehousing, dan business intelligence/OLAP
[1]. Industri sistem database telah menjadi saksi mata dari jalur evolusioner dalam
pengembangan kemampuan-kemampuan seperti koleksi data dan pembuatan
database, manajemen data (termasuk penyimpanan dan pencarian data, dan
pengolahan transaksi database), dan analisis data lanjutan (meliputi data mining
dan data warehouse) [3].

Gambar 1.1 Asal Usul Data Mining [1]

2. Evolusi Teknologi Sistem Database


Semenjak tahun 1960-an, database dan teknologi informasi telah berkembang
secara sistematis dari sistem pengolahan file primitif ke sistem database yang
canggih dan tangguh. Penelitian dan pengembangan sistem database pada tahun
1970-an telah mengalami kemajuan dari sistem database hierarki dan jaringan ke
pengembangan sistem database relasional (data disimpan dalam struktur tabel
relasional), tools pemodelan data, dan metode pengaksesan dan pengindeksan.
Sebagai tambahan, user memperoleh akses data yang sesuai dan fleksibel melalui
bahasa query, antarmuka pengguna, pemrosesan query teroptimisasi, dan
manajemen transaksi. Metode yang efisien untuk on-line transaction procesing
(OLTP), dimana suatu query dipandang sebagai transaksi read-only, telah
berkontribusi secara substansial kepada suatu evolusi dan penerimaan yang luas
terhadap teknologi relasional sebagai tool utama untuk penyimpanan yang efisien,
pencarian, dan manajemen jumlah data yang besar [3].
Teknologi database sejak pertengahan tahun 1980-an telah dikarakteristikkan
dengan mengadopsi teknologi relasional dan penelitian yang semakin meningkat
serta aktivitas pengembangan pada sistem database yang baru dan tangguh. Hal
ini memberikan kemajuan terhadap pengembangan model data lanjutan seperti
extended-relational, object-oriented, object-relational, dan model deduktif.
Sistem database berorientasi aplikasi, meliputi spasial, temporal, multimedia,
aktif, stream, sensor, database ilmiah dan rekayasa, basis pengetahuan, dan basis
informasi perkantoran telah mengalami perkembangan yang pesat. Permasalahan
yang terkait dengan distribusi, diversifikasi, dan berbagi data telah dipelajari
secara ekstensif. Sistem database yang heterogen dan sistem informasi global
berbasis internet seperti World Wide Web (WWW) juga telah muncul dan
memainkan peran yang vital dalam industri informasi [3].

Gambar 1.2 Evolusi Teknologi Sistem Database [3]


Kini, data dapat disimpan dalam berbagai jenis database dan repositori
informasi yang berbeda. Arsitektur repositori data yang telah muncul adalah data
warehouse, yang merupakan repositori dari sejumlah sumber data heterogen yang
diatur berdasarkan skema kesatuan pada sebuah lokasi untuk memfasilitasi
manajemen pembuat keputusan. Teknologi data warehouse meliputi pembersihan
data, integrasi data, dan on-line analytical processing (OLAP) yang merupakan
teknik analisis dengan fungsionalitas seperti summarization, konsolidasi, dan
agregasi sebaik kemampuan untuk menampilkan informasi dari sudut pandang
yang berbeda. Walaupun tools OLAP mendukung analisis multidimensional dan
pembuatan keputusan, tools analisis data tambahan diperlukan untuk analisis yang
lebih mendalam seperti klasifikasi data, clustering, dan perubahan karakteristik
data seiring dengan waktu. Sebagai tambahan, volume data yang berukuran sangat
besar dapat dihimpun di luar lingkup database dan data warehouse. Contoh yang
khas meliputi, World Wide Web dan data streams, dimana arus data masuk dan
keluar menyerupai aliran, seperti aplikasi pengawasan melalui video,
telekomunikasi, dan jaringan sensor. Analisis data yang efisien dan efektif dalam
bentuk yang berbeda berkembang menjadi tugas yang menantang [3].
Ketersediaan data yang berlimpah, disertai dengan kebutuhan terhadap tools
analisis data yang tangguh telah digambarkan sebagai suatu situasi dimana data
yang dimiliki berlimpah, tetapi miskin informasi (data rich but information poor).
Perkembangan pesat dalam jumlah data, dihimpun dan disimpan pada repositori
berkapasitas besar yang berjumlah banyak, telah jauh melampaui kemampuan
manusia dalam memahami himpunan data yang tersedia tanpa bantuan tools yang
tangguh. Hal ini menyebabkan data-data yang dihimpun dalam repositori
berukuran besar lambat laun hanya akan menjadi pusara data (arsip data yang
jarang disinggahi). Sebagi konsekuensi, keputusan penting seringkali dihasilkan
tanpa menggunakan dasar berlimpahnya informasi yang dimiliki oleh data yang
tersimpan pada repositori data, tetapi cenderung didasarkan pada intuisi pembuat
keputusan hanya dikarenakan mereka tidak memiliki tools yang dapat digunakan
untuk mengekstrak pengetahuan berharga dari data yang berlimpah tersebut.
Namun patut disayangkan, prosedur ini cenderung menghasilkan informasi yang
bias dan mengandung kesalahan, dan tentunya memakan waktu dan biaya yang
tidak sedikit. Data mining tools melakukan analisis data dan dapat menyingkap
pola data penting, yang berkontribusi besar dalam strategi bisnis, basis
pengetahuan, dan penelitian ilmiah serta medis. Adanya jurang pemisah antara
data dan informasi telah memicu pengembangan yang sistematis dari data mining
tools yang akan mengubah pusara data menjadi “bongkahan emas” pengetahuan
[3].

Gambar 1.3 Data Berlimpah, Tetapi Miskin Informasi [3]

3. Definisi Data Mining


Terdapat beragam pendapat mengenai definisi dari data mining. Pada bagian
ini dicantumkan beberapa pendapat mengenai apa sebenarnya yang dimaksud
dengan data mining yang diperoleh dari beberapa sumber berbeda.
Menurut Han and Kamber, secara sederhana, data mining mengacu pada
pernyataan “ekstraksi atau menggali pengetahuan dari sejumlah data yang besar”.
Istilah lain yang juga mengacu pada data mining adalah knowledge mining from
data (penggalian pengetahuan dari data), knowledge extraction (ekstraksi
pengetahuan), data/pattern analysis (analisis data/pola), data archaelogy
(arkeologi data), dan data dredging (pengerukan data). Selain istilah-istilah
tersebut, istilah lain yang juga populer sebagai sinonim dari data mining adalah
knowledge discovery from data (KDD) [3].

Gambar 1.4 Data Mining, Pencarian Pengetahuan (Pola Menarik) Dalam Data [3]
Pandangan lain menyatakan bahwa data mining merupakan langkah utama
dalam proses knowledge discovery. Sebagai bagian dalam suatu proses,
knowledge discovery digambarkan pada gambar berikut ini:

Gambar 1.5 Proses Knowledge Discovery [3]


Proses-proses yang terdapat pada knowledge discovery terdiri dari rangkaian
iteratif, seperti [3]:
a. Data cleaning, untuk menghapus noise dan data yang tidak konsisten.
b. Data integration, mengkombinasikan beberapa sumber data.
c. Data selection, mengambil kembali data-data dari database yang relevan
untuk keperluan analisis.
d. Data transformation, dimana data ditransformasi dan dihimpun ke dalam
bentuk yang sesuai, sebagai contoh dengan menggunakan summary atau
operasi aggregation.
e. Data mining, proses utama dimana metode cerdas digunakan untuk
mengekstrak pola-pola pada data.
f. Pattern evaluation, untuk mengidentifikasi pola yang benar-benar menarik
dan mewakili pengetahuan berdasarkan beberapa ukuran ketertarikan.
g. Knowledge presentation, dimana visualisasi dan pengetahuan mewakili
teknik-teknik yang digunakan untuk menampilkan pengetahuan yang telah
diperoleh kepada user.

Berdasarkan proses-proses tersebut, arsitektur dari sistem data mining dapat


terdiri dari beberapa komponen utama seperti berikut ini [3]:
a. Database, data warehouse, World Wide Web, atau repositori informasi
lainnya: merupakan sebuah atau sekumpulan database, data warehouse,
spreadsheets, atau jenis lainnya dari repositori informasi. Data cleaning dan
teknik data integration dapat digunakan pada data.
b. Database atau data warehouse server: database atau data warehouse
server bertanggung jawab untuk menampilkan data yang relevan,
berdasarkan permintaan dari user.
c. Knowledge base: merupakan domain pengetahuan yang digunakan untuk
memandu pencarian atau mengevaluasi hal yang menarik dari pola yang
dihasilkan. Pengetahuan tersebut dapat terdiri dari concepts hierarchies,
yang digunakan untuk mengorganisasikan atribut-atribut atau nilai atribut ke
dalam tingkat abstraksi yang berbeda.
d. Data mining engine: merupakan hal yang penting dalam sistem data
mining dan secara ideal terdiri dari sekumpulan modul-modul fungsional
yang digunakan untuk characterization, association dan correlation
analysis, classification, prediction, cluster analysis, outlier analysis, dan
evolution analysis.

Gambar 1.5 Arsitektur Sistem Data Mining [3]

e. Pattern evaluation module: komponen ini biasanya digunakan untuk


mengukur ketertarikan dan berinteraksi dengan modul-modul data mining
sehingga fokus mencari alur pola yang menarik.
f. User interface: modul ini berkomunikasi antara user dan sistem data
mining, yang mengizinkan user untuk berinteraksi dengan sistem dengan
cara menentukan data mining query, menyediakan informasi untuk
membatu fokus pencarian, dan melakukan eksplorasi data mining
berdasarkan hasil data mining lanjutan. Komponen ini juga mengizinkan
user untuk melakukan browsing pada database dan skema data warehouse
atau struktur data, mengevaluasi pola penggalian, dan memvisualisasikan
pola-pola pada bentuk yang berbeda-beda.

Menurut McCue, data mining memiliki banyak istilah seperti knowledge


management, knowledge discovery, dan sense making. Data mining merupakan
suatu aktivitas ekstraksi informasi yang bertujuan untuk mengungkapkan fakta-
fakta tersembunyi yang terdapat pada suatu database. Dengan kata lain, data
mining melibatkan analisis sistematis dari himpunan data yang sangat besar
dengan menggunakan metode otomatis. Dengan penggalian data, sangat
dimungkinkan untuk membuktikan maupun menyanggah hipotesis yang ada atau
ide-ide mengenai suatu data atau informasi, ketika menemukan informasi baru
atau informasi yang sebelumnya tidak diketahui. Secara khusus, hubungan yang
unik dan berharga yang terdapat pada data dapat diidentifikasi dan digunakan
secara proaktif untuk mengkategorikan atau mengantisipasi data tambahan.
Melalui penggunaan exploratory graphics yang dikombinasikan dengan advanced
statistics, machine learning tools, dan artificial intelligence, bongkahan informasi
penting dapat digali dari repositori data yang berukuran besar [4].
Menurut Hand, et al, data mining merupakan suatu analisis terhadap
himpunan data penelitian (seringkali himpunan data dalam jumlah besar) untuk
menemukan hubungan yang belum terungkap dan untuk merangkum data dalam
cara baru yang dapat dipahami dan berguna bagi pemilik data. Hubungan dan
rangkuman yang diperoleh dari penggunaan data mining seringkali mengacu pada
model atau pola. Contohnya meliputi, linear equations, rules, clusters, graphs,
tree structures, dan recurrent patterns pada time series [2].
Data mining biasanya berhubungan dengan data yang telah dihimpun untuk
tujuan tertentu selain analisis data mining. Sebagai contoh, data-data yang telah
dihimpun digunakan untuk memelihara rekaman seluruh transaksi di bank agar
selalu up-to-date. Hal ini berarti tujuan dari penggunaan data mining tidak
berkaitan dengan strategi pengumpulan data. Inilah yang membedakan data
mining dengan statistik. Pada statistik, data biasanya dikumpulkan menggunakan
strategi yang efisien untuk menjawab pertanyaan tertentu. Berkaitan dengan ini,
data mining seringkali dianggap sebagai analisis data kedua. Selain itu disebutkan
juga bahwa data yang digunakan pada data mining seringkali berukuran besar.
Pada saat melibatkan data dalam jumlah besar inilah yang akan memunculkan
pemasalahan baru. Beberapa diantaranya adalah mengenai bagaimana cara
menyimpan atau mengakses data, bagaimana menentukan hal-hal yang dapat
mewakili data-data tersebut, bagaimana cara menganalisis data dalam jangka
waktu yang layak, dan bagaimana memutuskan apakah hubungan yang terlihat
pada data hanyalah suatu kebetulan yang tidak mencerminkan kenyataan
sebenarnya atau bukan. Seringkali data yang tersedia hanya merupakan sebuah
sampel dari suatu populasi yang utuh sehingga tujuan yang diharapkan merupakan
generalisasi dari sampel ke populasi. Sebagai contoh, pada saat memprediksi
bagaimana perilaku pelanggan di waktu mendatang atau bagaimana menentukan
properti yang dimiliki oleh struktur protein yang sebelumnya belum pernah
diketahui. Jika pada kasus tersebut digunakan generalisasi, maka tujuan yang
diharapkan tidak akan sesuai dengan standar yang berlaku di statistik karena data
yang digunakan bukan merupakan random samples, tetapi lebih mengarah ke
convenience atau opportunity samples. Terkadang diinginkan untuk meringkas
atau memampatkan suatu himpunan data yang sangat besar dalam suatu cara
tertentu sehingga hasilnya dapat lebih mudah dipahami tanpa adanya konsep
generalisasi. Permasalan seperti itu akan muncul misalnya ketika memiliki data
sensus yang lengkap untuk suatu kota tertentu atau rekaman database dari jutaan
individu pada transaksi retail [2].
Proses dalam pencarian hubungan pada suatu himpunan data melibatkan
sejumlah langkah yang terdiri dari [2]:
a. Menentukan sifat dan struktur dari representasi yang digunakan.
b. Mememutuskan bagaimana cara mengukur dan membandingkan seberapa
baik representasi yang berbeda bisa sesuai pada data yang dimiliki (memilih
score function).
c. Memilih proses algoritma untuk mengoptimalkan score function.
d. Memutuskan prinsip manajemen data apa yang dibutuhkan untuk
mengimplementasikan algoritma yang telah dipilih dengan efisien.

4. Aktivitas Data Mining


Data mining dapat dikelompokkan ke dalam beragam aktivitas, berkaitan
dengan perbedaan tujuan yang diharapkan oleh orang yang menganalisis data.

a. Classification
b. Estimation
c. Prediction
d. Association rules
e. Clustering
f. Description dan visualization

Tiga aktivitas pertama (classification, estimation, prediction) merupakan


contoh dari directed data mining atau supervised learning. Pada directed data
mining, tujuan yang hendak dicapai adalah menggunakan data yang tersedia untuk
membangun sebuah model yang menggambarkan satu atau lebih atribut-atribut
khusus dari pusat perhatian (atribut target atau atribul kelas) sesuai dengan atribut-
atribut yang tersedia. Sedangkan tiga aktivitas berikutnya (association rules,
clustering, description dan visualization) merupakan contoh dari undirected data
mining, yakni tidak atribut yang dikhususkan sebagai target. Tujuan dari
undirected data mining adalah untuk membangun beberapa hubungan di antara
semua atribut [5].

4.1 Klasifikasi (Classification)


Klasifikasi terdiri dari pengujian terhadap karakteristik yang dimiliki oleh
objek baru dan menentukan di kelas mana objek baru tersebut berada. Pada
klasifikasi, kelas-kelas yang digunakan sudah ditentukan sebelumnya. Tugas
klasifikasi ditandai dengan pendefinisian yang baik dari kelas-kelasnya, dan satu
set pelatihan terdiri dari contoh-contoh yang belum diklasifikasikan. Tujuan dari
klasifikasi adalah untuk membangun suatu model yang dapat digunakan untuk
mengklasifikasikan data-data yang belum terklasifikasi. Contoh dari klasifikasi
meliputi [5]:
a. Pengklasifikasian para pengaju kredit ke dalam kategori resiko rendah,
sedang, atau tinggi
b. Pengklasifikasian jamur ke dalam kategori jamur yang aman dikonsumsi
atau jamur beracun
c. Penentuan saluran telepon rumah yang digunakan untuk mengakses internet

4.2 Perkiraan (Estimation)


Perkiraan berkaitan dengan nilai hasil yang berkelanjutan. Diberikan
sejumlah data masukan, perkiraan digunakan untuk memunculkan nilai dari
beberapa variabel kontinyu yang nilainya tidak diketahui seperti pendapatan atau
jumlah saldo kartu kredit. Beberapa contoh dari perkiraan, yakni [5]:
a. Memperkirakan jumlah anak dalam suatu keluarga berdasarkan data riwayat
pendidikan sang ibu
b. Memperkirakan total pendapatan yang dimiliki oleh suatu rumah tangga
berdasarkan data kendaraan yang dimiliki oleh keluarga tersebut
c. Memperkirakan nilai jual dari sebuah real estate berdasarkan data jarak
kedekatan antara lokasi real estate dari pusat bisnis utama di perkotaan

4.3 Prediksi (Prediction)


Prediksi apapun dapat dianggap sebagai klasifikasi atau perkiraan. Namun
perbedaannya terletak pada hal apa yang menjadi perhatian. Ketika data mining
digunakan untuk mengklasifikasikan saluran telepon yang penggunaan utamanya
adalah untuk mengakses internet atau transaksi kartu kredit yang diklasifikasikan
sebagai penipuan, tidak pernah terpikirkan apakah klasifikasi tersebut benar atau
tidak. Klasifikasi yang dilakukan bisa jadi bernilai benar atau salah. Namun,
ketidakpastian biasanya hanya disebabkan oleh pengetahuan yang tidak lengkap.
Prediksi menjadi tugas yang terasa berbeda karena rekaman-rekaman data
diklasifikasikan menurut beberapa perilaku masa depan yang telah diprediksi atau
nilai masa depan yang telah diperkirakan. Pada prediksi, satu-satunya cara untuk
mengetahui tingkat akurasi dari klasifikasi adalah dengan cara menunggu dan
mengamatinya. Contoh dari prediksi, di antaranya adalah :
a. Memprediksi jumlah saldo yang akan ditransfer jika prospek kartu kredit
dalam menerima transfer ditawarkan
b. Memprediksi pelanggan mana yang akan pergi/berpaling dalam enam bulan
ke depan
c. Memprediksi pelanggan telepon yang akan memesan layanan tambahan
seperti panggilan telepon tiga jalur atau kota suara

Teknik apapun yang digunakan dalam klasifikasi maupun perkiraan dapat


digunakan di dalam melakukan prediksi dengan menggunakan contoh pelatihan di
mana nilai dari variabel yang akan diprediksi telah diketahui, beserta dengan data-
data historisnya. Data historis digunakan untuk membentuk suatu model yang
menjelaskan perilaku yang sedang diteliti. Ketika model ini digunakan untuk
aliran masukan, hasil yang diperoleh berupa prediksi dari perilaku yang akan
terjadi di masa mendatang [5].

4.4 Aturan Asosiasi (Association Rules)


Aturan asosiasi adalah suatu aturan yang menyiratkan hubungan asosiasi
tertentu di antara suatu himpunan objek (seperti “terjadi bersama” atau “saling
melibatkan satu sama lain”) dalam suatu database. Misalkan diberikan suatu
himpunan transaksi, di mana setiap transaksi merupakan suatu himpunan literal
(disebut item). Suatu aturan asosiasi merupakan sebuah ekspresi dalam bentuk X
Y, di mana X dan Y adalah himpunan items. Makna intuitif dari aturan tersebut
yakni, transaksi database yang mengandung X akan cenderung mengandung Y.
Contoh dari aturan asosiasi adalah:
“30% petani yang menanam gandum juga menanam kacang-kacangan; 2%
dari keseluruhan petani menanam dua komoditas tersebut”
Dari pernyataan tersebut, presentase 30% disebut confidence of the rule, dan 2%
menyatakan support of the rule. Permasalahan dalam aturan asosiasi adalah untuk
menemukan semua aturan asosiasi yang memenuhi spesifikasi user dalam hal
minimum support dan minimum confidence constraints [5].

4.5 Klaster (Clustering)


Pengklasteran merupakan suatu tugas untuk membagi grup yang beragam
menjadi sejumlah subgrup yang memiliki kemiripan atau klaster. Hal yang
membedakan klaster dengan klasifikasi adalah pengklasteran tidak bergantung
terhadap penentuan kelas awal. Dalam pengklasteran tidak terdapat pendefinisian
kelas awal. Rekaman data dikelompokkan berdasarkan kemiripan yang terdapat
antar data. Pengklasteran seringkali dilakukan sebagai langkah awal dalam
membentuk pemodelan pada data mining. Sebagai contoh, pengklasteran dapat
dijadikan sebagai langkah awal dalam melakukan segmentasi pasar, jika
dibandingkan harus menerapkan aturan one-size-fits-all untuk menentukan jenis
promosi terbaik untuk setiap klaster [5].

4.6 Deskripsi dan Visualisasi (Description dan Visualization)


Visualisasi data merupakan bentuk yang tangguh dari pendeskripsian data
mining. Memang visualisasi tidak selalu menjadi hal yang mudah untuk dipahami,
tetapi gambar yang tepat benar-benar dapat bernilai seperti ribuan aturan asosiasi
karena manusia telah sangat terbiasa dalam memahami pandangan visual [5].

5. Summary
Data mining merupakan suatu analisis yang dilakukan terhadap suatu
himpunan data untuk mengekstrak informasi yang terkandung di dalamnya
sehingga diperoleh pemahaman terhadap himpunan data tersebut dan dapat
dimanfaatkan oleh pemilik data untuk tujuan yang dikehendakinya. Ekstraksi
informasi dari suatu himpunan data dilakukan sesuai dengan tujuan yang
dikehendaki oleh pemilik data sehingga aktivitas data mining dikelompokkan
menjadi enam kelompok, yakni klasifikasi (classification), perkiraan (estimation),
prediksi (prediction), aturan asosiasi (association rule), klaster (clustering),
deskripsi dan visualisasi (description and visualization).
Bab 2
PERKAKAS DAN TEKNIK DATA MINING

Pada bab ini akan membahas tentang tools apa saja yang dapat digunakan
sebagai acuan untuk melakukan proses data mining, serta teknik-teknik apa saja
yang dapat digunakan untuk melakukan proses data mining.

1. Perkakas Data Mining


Data mining tidak hanya membahas tentang alat atau perangkat lunak
database yang Anda gunakan. Anda dapat melakukan data mining dengan sistem
database relatif sederhana dan alat-alat yang sederhana, termasuk membuat dan
menulis sendiri, atau menggunakan paket perangkat lunak yang ada. Manfaat data
mining yang kompleks dari pengalaman masa lalu dan algoritma didefinisikan
dengan perangkat lunak dan paket perangkat lunak yang ada, dengan alat tertentu
memperoleh afinitas yang lebih besar atau reputasi dengan teknik yang berbeda.
Misalnya, IBM SPSS®, yang memiliki akarnya dalam analisis statistik dan
survei, dapat membangun model prediksi yang efektif dengan melihat tren masa
lalu dan membangun perkiraan yang akurat. IBM InfoSphere® Warehouse
menyediakan data sourcing, preprocessing, mining, dan analisis informasi dalam
satu paket, yang memungkinkan Anda untuk mengambil informasi dari database
sumber langsung ke output yang berupa laporan akhir.
Baru-baru ini bahwa data set yang sangat besar dan cluster dan pengolahan
data skala besar yang dapat memungkinkan data mining untuk menyusun dan
melaporkan kelompok dan korelasi data yang lebih rumit. Sekarang banyak sekali
alat dan sistem baru yang tersedia, termasuk penyimpanan data gabungan dan
sistem pengolahan. Anda dapat menambang data dengan berbagai set data yang
berbeda, termasuk, database SQL tradisional, data teks baku, simpanan kunci /
nilai, dan database dokumen. Clustered database, seperti Hadoop, Cassandra,
CouchDB, dan Couchbase Server, menyimpan dan menyediakan akses ke data
sedemikian rupa sehingga tidak sesuai dengan struktur tabel tradisional.
Secara khusus, format penyimpanan yang lebih fleksibel dari database
dokumen menyebabkan fokus yang berbeda dan kompleksitas dalam hal
pengolahan informasi. Database SQL memiliki struktur yang ketat dan kekakuan
dalam skema, yang membuat proses query mereka dan menganalisis data
langsung dari perspektif bahwa format dan struktur informasi telah diketahui.
Database dokumen yang memiliki standar seperti struktur JSON, atau file yang
memiliki beberapa struktur dapat dibaca oleh mesin, juga lebih mudah untuk
memproses, meskipun mereka bisa menambahkan kompleksitas karena struktur
dan variabel yang berbeda. Misalnya, dengan pengolahan data baku sepenuhnya
dari Hadoop yang dapat menjadi kompleks untuk mengidentifikasi dan
mengekstraksi konten sebelum Anda mulai untuk memproses dan
menghubungkannya [6].
Organisasi-organisasi yang ingin menggunakan alat data mining dapat
membeli program mining yang dirancang untuk perangkat lunak dan platform
perangkat keras yang ada, yang dapat diintegrasikan ke dalam produk baru dan
sistem seperti yang dibeli secara online, atau mereka dapat membangun solusi
custom mining mereka sendiri. Misalnya, memasukkan output dari latihan mining
data ke sistem komputer lain, seperti jaringan saraf, adalah sangat umum dan
dapat memberikan nilai lebih pada data yang di-mining. Hal ini karena alat data
mining mengumpulkan data, sedangkan program kedua (misalnya, jaringan saraf)
membuat keputusan berdasarkan data yang dikumpulkan.
Berbagai jenis alat data mining yang tersedia di pasaran, masing-masing
dengan kekuatan dan kelemahan mereka sendiri. Auditor internal perlu menyadari
pada berbagai jenis alat-alat pertambangan data yang tersedia dan
merekomendasikan pembelian alat yang sesuai dengan kebutuhan organisasi. Hal
ini harus dipertimbangkan sedini mungkin dalam siklus proyek, bahkan mungkin
dalam studi kelayakan. Kebanyakan alat data mining dapat diklasifikasikan ke
dalam salah satu dari tiga kategori: alat data mining tradisional, dashboard, dan
alat teks-mining.
a. Alat Data Mining Tradisional
Program data mining tradisional membantu perusahaan membangun pola
data dan tren dengan menggunakan beberapa algoritma dan teknik yang
kompleks. Beberapa dari alat ini diinstal pada desktop untuk memantau data dan
menyorot tren dan lainnya mengangkap informasi yang berada di luar database.
Mayoritas tersedia di Windows dan versi UNIX, meskipun beberapa spesialisasi
dalam satu sistem operasi saja. Selain itu, beberapa mungkin berkonsentrasi pada
satu jenis database, sebagian besar akan mampu menangani data menggunakan
pengolahan analisis online atau teknologi serupa.

b. Dashboards
Diinstal di komputer untuk memantau informasi dalam database, dashboard
mencerminkan perubahan data dan update onscreen - seringkali dalam bentuk
grafik atau tabel - memungkinkan pengguna untuk melihat bagaimana bisnis
berkinerja. Data historis juga dapat dirujuk, yang memungkinkan pengguna untuk
melihat di mana hal telah berubah (misalnya, peningkatan penjualan dari periode
yang sama tahun lalu). Fungsi ini membuat dashboard mudah digunakan dan
sangat menarik bagi manajer yang ingin memiliki gambaran kinerja perusahaan.

c. Alat Text-Mining
Terkadang disebut alat teks-mining karena kemampuannya untuk
menambang data dari berbagai jenis teks - dari Microsoft Word dan PDF Acrobat
dokumen ke file teks sederhana, misalnya. Alat ini memindai isi dan
mengkonversi data yang dipilih ke format yang kompatibel dengan database alat
tersebut, sehingga memberikan pengguna dengan cara yang mudah dan nyaman
untuk mengakses data tanpa perlu membuka aplikasi yang berbeda. Konten yang
dipindai dapat terstruktur (misalnya, informasi yang tersebar hampir secara acak
di seluruh dokumen, termasuk e-mail, halaman internet, audio dan data video)
atau terstruktur (misalnya, bentuk data dan tujuan yang dikenal, seperti konten
yang ditemukan dalam database). Menangkap masukan ini dapat memberikan
organisasi dengan banyak informasi yang dapat digali untuk menemukan tren,
konsep, dan sikap.
Selain alat ini, aplikasi dan program lain dapat digunakan untuk tujuan data
mining. Misalnya, audit alat interogasi dapat digunakan untuk menyoroti
penipuan, data anomali, dan pola. Contoh dari hal ini telah diterbitkan oleh kantor
Treasury Inggris dalam Fraud Report 2002-2003: Anti-fraud Advice and
Guidance, yang membahas bagaimana menemukan penipuan menggunakan alat
interogasi audit. Contoh lain adalah digunakannya alat pemeriksaan interogasi
untuk mengidentifikasi penipuan yang ditemukan pada tahun 1999 dalam buku
David G. Coderre, Fraud Detection.
Selain itu, auditor internal dapat menggunakan spreadsheet untuk
melakukan latihan sederhana data mining atau untuk menghasilkan tabel
ringkasan. Beberapa komputer desktop, notebook, dan server yang menjalankan
sistem operasi seperti Windows, Linux, dan Macintosh dapat diimpor langsung ke
Microsoft Excel. Menggunakan tabel penting dalam spreadsheet, auditor dapat
meninjau data yang kompleks dalam format sederhana dan menelusuri di mana
yang diperlukan untuk menemukan asumsi yang digarisbawahi atau informasi.
Ketika mengevaluasi strategi data mining, perusahaan dapat memutuskan
untuk membeli beberapa alat untuk tujuan tertentu, daripada membeli satu alat
yang memenuhi semua kebutuhan. Meskipun memperoleh beberapa alat bukanlah
pendekatan utama, perusahaan dapat memilih untuk melakukannya jika, misalnya,
menginstal dashboard untuk menjaga manajer mendapatkan informasi pada
masalah bisnis, data mining suite penuh untuk mengambil dan membangun data
untuk pemasaran dan penjualan, dan alat interogasi sehingga auditor dapat
mengidentifikasi aktivitas penipuan [7].

Selain alat-alat data mining yang telah disebutkan diatas, Wikipedia


memberikan daftar software dan aplikasi bersifat free dan open source yang dapat
digunakan untuk data mining antara lain sebagai berikut [8] :

a. Carrot2: framework clustering teks dan hasil pencarian.


b. Chemicalize.org: miner struktur kimia dan web search engine.
c. ELKI: project riset universitas dengan analisis cluster canggih dan metode
deteksi outlier yang ditulis dalam bahasa Java.
d. GATE: pemroses bahasa natural dan tool rekayasa bahasa.
e. JHepWork: framework analisis data berbasis Java yang dikembangkan di
Argonne National Laboratory.
f. KNIME: Konstanz Information Miner, framework analisis data
komprehensif yang user-friendly.
g. ML-Flex: paket software yang memungkinkan pengguna untuk
mengintegrasikan dengan paket mesin belajar pihak ketiga yang ditulis
dalam bahasa pemrograman apapun, mengeksekusi klasifikasi analisis
secara paralel sepanjang node komputasi, dan menghasilkan laporan HTML
dari hasil klasifikasi.
h. NLTK (Natural Language Toolkit): Sebuah kumpulan libraries dan program
untuk pengolahan bahasa simbolik dan statistik alami untuk bahasa Python.
i. Orange: Sebuah komponen berbasis data mining dan suite software mesin
pembelajaran ditulis dalam bahasa Python.
j. R: Sebuah bahasa pemrograman dan lingkungan perangkat lunak untuk
komputasi statistik, data mining, dan grafis. Ini adalah bagian dari proyek
GNU.
k. RapidMiner: Sebuah lingkungan untuk pembelajaran mesin dan eksperimen
data mining.
l. UIMA: framework komponen untuk menganalisis konten tidak terstruktur
seperti teks, audio dan video - awalnya dikembangkan oleh IBM.

m. Weka: suite software aplikasi pembelajaran mesin yang ditulis dalam bahasa
pemrograman Java.

Sedangkan software dan aplikasi yang bersifat komersial antara lain sebagai
berikut [8] :

a. Angoss KnowledgeSTUDIO: tool data mining yang dibuat Angoss.


b. BIRT Analytics: tool visual data mining dan analisis prediktif yang dibuat
Actuate Corporation.
c. Clarabridge: solusi analisis text kelas enterprise.
d. E-NI (e-mining, e-monitor): tool data mining berbasiskan pola sementara.
e. IBM SPSS Modeler: software data mining yang dibuat IBM.
f. KXEN Modeler: tool data mining yang dibuat KXEN.
g. LIONsolver: software aplikasi terintegrasi untuk data mining, intelegen
bisnis, dan pemodelan yang mengimplementasikan pendekatan Learning
and Intelligent OptimizatioN (LION).
h. Microsoft Analysis Services: software data mining yang dibuat Microsoft.
i. Oracle Data Mining: software data mining oleh Oracle.
j. SAS Enterprise Miner: software data mining yang dibuat SAS Institute.
k. STATISTICA Data Miner: software data mining yang dibuat StatSoft.

2. Teknik Data Mining


Selain menggunakan alat data mining tertentu, auditor internal dapat
memilih dari berbagai teknik data mining. Teknik yang paling sering digunakan
termasuk jaringan saraf tiruan, pohon keputusan, dan metode tetangga-terdekat.
Masing-masing teknik melakukan analisis data dengan cara yang berbeda.

a. Jaringan Saraf Tiruan


Model prediksi non-linear yang belajar melalui pelatihan. Meskipun teknik
pemodelan prediktif ini kuat, beberapa kekuatan datang dengan mengorbankan
kemudahan penggunaan. Satu area di mana auditor dapat dengan mudah
menggunakannya adalah ketika meninjau catatan untuk mengidentifikasi penipuan
dan tindakan mendekati penipuan. Karena kompleksitas, teknik ini lebih baik
digunakan dalam situasi di mana teknik ini dapat digunakan dan digunakan
kembali, seperti meninjau transaksi kartu kredit setiap bulan untuk memeriksa
anomali.

b. Pohon Keputusan
Pohon berbentuk struktur yang mewakili set keputusan. Keputusan ini
menghasilkan aturan, yang kemudian digunakan untuk mengklasifikasikan data.
Pohon keputusan adalah teknik favorit untuk membangun model yang mudah
dimengerti. Auditor dapat menggunakannya untuk menilai, misalnya, apakah
organisasi menggunakan strategi pemasaran hemat biaya yang tepat yang
didasarkan pada nilai yang diberikan pelanggan, seperti laba.
c. Metode Tetangga-Terdekat
Mengklasifikasikan record dataset berdasarkan data yang sama dalam
sejarah dataset. Auditor dapat menggunakan pendekatan ini untuk menentukan
dokumen yang menarik untuk mereka dan meminta sistem untuk mencari barang
serupa.

Masing-masing pendekatan membawa berbagai keuntungan dan kerugian


yang perlu dipertimbangkan sebelum penggunaannya. Jaringan saraf tiruan, yang
sulit untuk dilaksanakan, mewajibkan semua input dan output yang dihasilkan
untuk diekspresikan secara numerik, sehingga membutuhkan semacam
interpretasi tergantung pada sifat alami latihan data mining. Teknik pohon
keputusan adalah metodologi yang paling umum digunakan, karena sederhana dan
mudah untuk diimplementasikan. Akhirnya, metode tetangga-terdekat lebih
bergantung pada menghubungkan barang serupa dan, karenanya, bekerja lebih
baik untuk ekstrapolasi daripada pertanyaan prediktif.
Cara yang baik untuk menerapkan teknik-teknik canggih data mining adalah
memiliki alat data mining yang fleksibel dan interaktif yang terintegrasi dengan
database atau data warehouse. Menggunakan alat yang beroperasi di luar
database atau data warehouse tidak efisien. Menggunakan alat tersebut akan
melibatkan langkah-langkah ekstra untuk mengekstrak, impor, dan menganalisis
data. Ketika alat data mining terintegrasi dengan data warehouse,
menyederhanakan penerapan dan pelaksanaan hasil mining. Selain itu selama
gudang tumbuh dengan keputusan dan hasil baru, organisasi dapat menambang
praktik terbaik dan terus menerapkannya menuju keputusan masa depan.
Terlepas dari teknik yang digunakan, nilai sebenarnya di balik data mining
adalah pemodelan, proses membangun model yang didasarkan pada kriteria yang
ditentukan pengguna dari data yang telah ditangkap. Setelah model dibangun, hal
itu dapat digunakan dalam situasi yang sama di mana jawaban tidak diketahui.
Sebagai contoh, sebuah organisasi yang ingin memperoleh pelanggan baru dapat
membuat model pelanggan ideal yang didasarkan pada data yang ada diambil dari
orang-orang yang sebelumnya membeli produk. Model ini kemudian digunakan
untuk query data pada calon pelanggan untuk melihat apakah profil mereka cocok.
Modeling juga dapat digunakan oleh departemen audit untuk memprediksi jumlah
auditor yang diperlukan untuk melakukan rencana audit berdasarkan usaha-usaha
sebelumnya dan pekerjaan serupa [7].

Sedangkan menurut Dr. Rajni Jain dalam papernya yang berjudul


Introduction to Data Mining Techniques, teknik-teknik dalam data mining dapat
dijabarkan sebagai berikut [5] :
a. Statistik  permasalahan dalam mengabstraksi pengetahuan dari data telah
ditemukan oleh ahli statistik, jauh sebelum paper pertama tentang
kecerdasan buatan dipublikasikan. Contoh, analisis korelasi
mengaplikasikan alat statistik untuk menganalisis korelasi antara dua atau
lebih variabel. Analisis cluster menawarkan metode untuk menemukan
cluster di set obyek besar yang digambarkan oleh vektor nilai. Analisis
faktor mencoba untuk menunjukkan variabel yang paling penting yang
menggambarkan cluster. Beberapa teknik populer yang digunakan untuk
tugas-tugas klasifikasi tersebut adalah Linear Discriminants, Quadratic
Discriminants, K-Nearest Neighbour, Naïve Bayes, Logistic Regression dan
CART.
b. Machine Learning  Metode statistik mengalami kesulitan
menggabungkan informasi subjektif non terukur dalam model mereka.
Mereka juga harus mengasumsikan distribusi berbagai parameter dan
independensi atribut. Berbagai penelitian telah menyimpulkan bahwa
pembelajaran mesin menghasilkan akurasi prediksi yang sebanding (dan
sering lebih baik). Kinerjanya yang baik dibandingkan dengan metode
statistik dapat dikaitkan dengan fakta bahwa bebas dari asumsi parametrik
dan struktural yang mendasari metode statistik. Kelemahan lain dari
pendekatan statistik untuk analisis data adalah masalah menafsirkan hasil.
Beberapa teknik pembelajaran mesin disebutkan di bawah ini.
b.1 Jaringan Saraf  Jaringan saraf tiruan adalah model komputasi yang
terdiri dari banyak elemen pemrosesan non linier yang diatur dalam pola
yang mirip dengan jaringan neuron biologis. Jaringan saraf yang khas
memiliki nilai aktivasi yang terkait dengan masing-masing node dan
bobot nilai yang terkait dengan masing-masing koneksi. Sebuah fungsi
aktivasi mengatur penembakan node dan penyebaran data melalui
koneksi jaringan di paralelisme besar. Jaringan juga dapat dilatih dengan
contoh-contoh melalui penyesuaian berat koneksi.
b.2 Algoritma Genetika  Algoritma genetik adalah algoritma pencarian
berdasarkan mekanisme seleksi alam dan genetika alami. Mereka
mengkombinasikan “survival of the fittest” antara string struktur dengan
pertukaran informasi terstruktur secara acak untuk membentuk algoritma
pencarian dengan beberapa bakat inovatif pencarian manusia. Dalam
setiap generasi, satu set string baru dibuat dengan menggunakan
potongan-potongan yang terkuat dari yang lama, sebuah bagian baru
sesekali dicoba untuk pengukuran yang baik. Sementara diacak,
algoritma genetik tidak berjalan secara sederhana. Mereka secara efisien
mengeksploitasi informasi bersejarah untuk berspekulasi pada poin
pencarian baru dengan harapan mendapatkan kinerja yang lebih baik.
Sebuah GA sederhana yang menghasilkan hasil yang baik, terdiri dari
tiga operator yaitu reproduksi, crossover dan mutasi. GA berbeda dari
optimasi normal dan prosedur pencarian dalam empat hal:
1. GA bekerja dengan coding dari set parameter, bukan
parameternya.
2. GA melakukan pencarian dari poin populasi, bukan dari point
tunggal.
3. GA menggunakan fungsi informasi objektif, bukan turunan atau
pengetahuan tambahan lainnya.
4. GA menggunakan aturan transisi probabilistik, bukan aturan
deterministik.
b.3 Support Vector Machines  SVM adalah mesin pembelajaran yang
dapat melakukan klasifikasi biner dan tugas estimasi regresi. Mereka
menjadi semakin populer sebagai paradigma baru klasifikasi dan
pembelajaran karena dua faktor penting. Pertama, tidak seperti teknik
klasifikasi lainnya, SVM meminimalkan kesalahan yang diharapkan
bukannya meminimalkan kesalahan klasifikasi. Kedua, SVM
menggunakan dualitas teori pemrograman matematika untuk
mendapatkan masalah ganda yang mengakui metode komputasi efisien.
b.4 Induksi Pohon Keputusan  DT adalah skema klasifikasi yang
menghasilkan pohon dan seperangkat aturan, mewakili model kelas
yang berbeda, dari dataset yang diberikan. DT adalah diagram alur
seperti struktur pohon, di mana setiap node internal menunjukkan
sebuah tes pada atribut, setiap cabang merupakan hasil dari tes dan node
daun mewakili kelas atau distribusi kelas. Simpul yang paling atas
dalam pohon adalah simpul akar. Berikut adalah sebuah contoh untuk
pohon keputusan dengan menggunakan aturan dan dataset.
Aturan:
1. IF hair = blonde AND lotion = no THEN sunburn = yes.
2. IF hair = blonde AND lotion = yes THEN sunburn = no.
3. IF hair = red THEN sunburn = yes.
4. IF hair = brown THEN sunburn = no.
Dan berikut adalah gambar tabel dataset untuk sunburn.

Gambar 2.1 Dataset sunburn 1 [5]


Gambar 2.2 Dataset sunburn 2 [5]

Gambar 2.3 Pohon keputusan yang didapatkan dari dataset sunburn [5]

c. Fuzzy Logic  Fuzzy logic, yang dapat dipandang sebagai perluasan dari
sistem logika klasik, menyediakan kerangka kerja konseptual yang efektif
untuk mengatasi masalah representasi pengetahuan dalam lingkungan
ketidakpastian dan ketidaktepatan. Beberapa karakteristik penting dari
logika fuzzy berhubungan dengan berikut:
c.1 Dalam logika fuzzy, penalaran yang tepat dipandang sebagai kasus
terbatas perkiraan penalaran.
c.2 Dalam logika fuzzy segalanya tentang masalah derajat.
c.3 Semua sistem logika dapat difuzzifikasi.
c.4 Dalam logika fuzzy, pengetahuan diartikan sebagai kumpulan elastisitas
atau ekuivalen, batasan fuzzy terletak pada kumpulan variabel.

Ringkasan konsep dasar dan teknik yang mendasari penerapan logika fuzzy
untuk representasi pengetahuan dan gambaran sejumlah contoh yang
berkaitan dengan penggunaannya sebagai sistem komputasi yang
disediakan. logika fuzzy dalam bentuk murninya bukan teknik untuk
klasifikasi tetapi telah menjadi konsep yang sangat berguna dalam banyak
teknik hibrida untuk klasifikasi.

d. Rough Sets  RS teori berkaitan dengan pendekatan set atau konsep


dengan cara biner relasi yang dibangun dari data empiris didasarkan pada
gagasan dari ketidakmampuan untuk membedakan antara objek. Perkiraan
tersebut dapat dikatakan untuk membentuk model konsep target, dan
karenanya dalam penggunaan yang khas, berada di bawah pendekatan
bottom up untuk konstruksi model. Aplikasi Rough Set ke data mining
secara umum dilanjutkan sepanjang arah berikut:
d.1 Aturan keputusan adalah induksi dari atribut nilai tabel.
d.2 Data filtrasi oleh template generasi - ini terutama melibatkan ekstraksi
blok dasar dari data yang didasarkan pada hubungan kesetaraan.
algoritma genetik juga kadang-kadang digunakan dalam tahap ini untuk
pencarian.

Sedangkan menurut Karimella Vikram pada papernya yang berjudul Data


Mining Tools and Techniques: a review, seperti halnya tukang kayu
menggunakan banyak peralatan untuk membangun rumah yang kokoh, seorang
analis yang baik mempekerjakan lebih dari satu teknik untuk mengubah data
menjadi informasi. Sebagian besar data miner melampaui dasar-dasar pelaporan
dan OLAP (On-Line Analytical Processing, juga dikenal sebagai multi-dimensi
pelaporan) untuk mengambil pendekatan multi-metode yang mencakup berbagai
teknik-teknik canggih. Beberapa di antaranya adalah teknik statistik sedangkan
yang lain didasarkan pada kecerdasan buatan (AI) [9].
a. Cluster Analysis  Analisis Cluster adalah teknik reduksi data yang
dikelompokkan bersama-sama baik variabel atau kasus berdasarkan
karakteristik data yang sama. Teknik ini berguna untuk menemukan segmen
pelanggan berdasarkan karakteristik seperti informasi demografis dan
keuangan atau perilaku pembelian. Misalnya, bank ingin mencari segmen
pelanggan berdasarkan jenis rekening yang mereka buka. Sebuah analisis
cluster dapat menghasilkan beberapa kelompok pelanggan. Bank kemudian
mungkin mencari perbedaan jenis rekening dibuka dan perilaku, khususnya
gesekan, antara segmen. Mereka kemudian mungkin memperlakukan
segmen secara berbeda berdasarkan pada karakteristik ini.
b. Regresi linier  Regresi linier adalah metode yang cocok dengan garis
lurus melalui data. Jika garis miring ke atas, itu berarti bahwa variabel
independen seperti ukuran tenaga penjualan memiliki efek positif pada
variabel dependen seperti pendapatan. Jika garis miring ke bawah, ada efek
negatif. Makin curam kemiringan, variabel independen memiliki efek lebih
pada variabel dependen.
c. Korelasi  Korelasi adalah ukuran hubungan antara dua variabel. Sebagai
contoh, korelasi yang tinggi antara pembelian produk tertentu seperti keju
dan rackers menunjukkan bahwa produk ini kemungkinan akan dibeli
bersama-sama. Korelasi dapat berupa positif atau negatif. Korelasi positif
menunjukkan bahwa tingginya tingkat sebuah variabel akan disertai dengan
nilai tinggi dari variabel yang berkorelasi. Sebuah korelasi negatif
menunjukkan bahwa tingkat tinggi dari sebuah variabel akan disertai dengan
nilai yang rendah dari variabel yang berkorelasi. Korelasi positif yang
berguna untuk menemukan produk yang cenderung dibeli bersama-sama.
Korelasi negatif dapat berguna untuk diversifikasi di pasar dalam portofolio
strategis suatu perusahaan. Sebagai contoh, sebuah perusahaan energi
mungkin memiliki minat baik dalam gas alam dan bahan bakar minyak
karena perubahan harga dan tingkat substitutabilitas mungkin berdampak
pada permintaan untuk satu sumber daya di atas yang lain. Analisis korelasi
dapat membantu perusahaan mengembangkan portofolio pasar untuk
menyerap perubahan lingkungan seperti di pasar individu.
d. Analisis faktor  Analisis faktor adalah teknik reduksi data. Teknik ini
mendeteksi faktor yang mendasari, juga disebut "variabel laten" dan
menyediakan model untuk faktor-faktor ini didasarkan pada variabel dalam
data. Sebagai contoh, jika tiga atribut seperti dukungan teknis, layanan
pelanggan, dan ketersediaan pelatihan dibebankan semua sangat pada satu
faktor, kita sebut faktor "layanan." Teknik ini dapat sangat membantu dalam
menemukan karakteristik penting yang mendasari mungkin tidak mudah
diamati, tetapi yang mungkin ditemukan sebagai manifestasi dari variabel
yang dapat diamati. Aplikasi lain yang baik dari analisis faktor adalah untuk
mengelompokkan berbagai produk berdasarkan kesamaan pola pembelian.
Analisis faktor dapat membantu bisnis menemukan peluang untuk cross-
selling dan bundling. Sebagai contoh, analisis faktor mungkin menunjukkan
empat kelompok yang berbeda dari produk dalam sebuah perusahaan.
Dengan pengelompokan produk, seorang marketer sekarang dapat
merancang paket produk atau mencoba untuk cross-sell produk ke
pelanggan di masing-masing kelompok yang tidak mungkin saat ini bisa
membeli produk lainnya dalam kelompok produk.
e. Pohon keputusan  Pohon keputusan memisahkan data ke dalam
seperangkat aturan yang cenderung memiliki efek yang berbeda pada
variabel sasaran. Sebagai contoh, kita mungkin ingin mencari karakteristik
orang yang cenderung untuk menanggapi secarik surat langsung.
Karakteristik ini dapat diterjemahkan ke dalam seperangkat aturan. Pohon
keputusan juga merupakan alat yang baik untuk menganalisis gesekan,
menemukan peluang cross-selling, melakukan analisis promosi,
menganalisa risiko kredit atau kebangkrutan, dan mendeteksi kecurangan.
Pohon keputusan adalah pohon berbentuk struktur yang mewakili set
keputusan. Keputusan ini menghasilkan aturan, yang kemudian digunakan
untuk mengklasifikasikan data. Pohon keputusan adalah teknik favorit untuk
membangun model yang dapat dipahami.
f. Jaringan saraf  Jaringan saraf meniru otak manusia dan dapat belajar
dari contoh-contoh untuk menemukan pola dalam data atau
mengklasifikasikan data. Keuntungannya adalah bahwa hal itu tidak perlu
memiliki model tertentu ketika menjalankan analisis. Juga, jaringan saraf
dapat menemukan efek interaksi (seperti efek dari kombinasi usia dan jenis
kelamin) yang harus secara eksplisit ditentukan dalam regresi. Kerugiannya
adalah bahwa lebih sulit untuk menafsirkan model yang dihasilkan dengan
lapisan bobot dan transformasi yang sulit dimengerti. Jaringan saraf berguna
dalam memprediksi variabel target saat data sangat non-linear dengan
interaksi, tetapi mereka tidak sangat berguna ketika hubungan ini perlu
dijelaskan. Mereka dianggap alat yang baik untuk aplikasi seperti
peramalan, skor kredit, skor respon model, dan analisis risiko. Jaringan saraf
tiruan adalah non-linear, model prediksi yang belajar melalui pelatihan.
Meskipun mereka teknik pemodelan prediktif yang kuat, beberapa kekuatan
datang dengan mengorbankan kemudahan penggunaan dan penyebaran.
Satu area di mana auditor dapat dengan mudah menggunakannya adalah
ketika meninjau catatan untuk mengidentifikasi penipuan tindakan seperti
penipuan. Karena kompleksitas, mereka lebih baik digunakan dalam situasi
di mana mereka dapat digunakan dan digunakan kembali, seperti meninjau
transaksi kartu kredit setiap bulan untuk memeriksa anomali.
g. Model asosiasi  Model asosiasi memeriksa sejauh mana nilai-nilai dari
satu field bergantung, atau diperkirakan oleh, nilai-nilai dari field lain.
Asosiasi penemuan menemukan aturan tentang item yang muncul bersama-
sama dalam sebuah peristiwa seperti transaksi pembelian. Aturan memiliki
dukungan yang ditetapkan pengguna, confidence, dan panjang. Aturan
menemukan hal-hal yang "pergi bersama-sama." Model ini sering disebut
sebagai Market Basket Analysis ketika mereka diterapkan untuk industri
retail untuk mempelajari pola beli pelanggan mereka.
h. Nearest-neighbor  mengklasifikasikan record dataset berdasarkan data
yang sama dalam sejarah dataset. Auditor dapat menggunakan pendekatan
ini untuk menentukan dokumen yang menarik untuk mereka dan meminta
sistem untuk mencari barang serupa.
i. Analisis link  Ini adalah teknik lain untuk mengasosiasikan record. Tidak
digunakan terlalu banyak, tetapi ada beberapa alat yang dibuat hanya untuk
ini. Seperti namanya, teknik ini mencoba untuk menemukan link, baik pada
pelanggan, transaksi, dll. Dan menunjukkan link tersebut.
j. Visualisasi  Teknik ini membantu pengguna memahami data mereka.
Visualisasi membuat jembatan dari text based untuk presentasi grafis. Hal-
hal seperti pohon keputusan, aturan, cluster dan pengguna visualisasi pola
membantu melihat hubungan data daripada membaca tentang data tersebut.
Banyak program data mining yang kuat pertambangan telah membuat
kemajuan dalam meningkatkan konten visual mereka selama beberapa tahun
terakhir. Ini benar-benar visi masa depan data mining dan analisis.
3. Summary
Data mining melibatkan ekstraksi aturan yang berguna atau pola yang
menarik dari data historis. Ada banyak tugas data mining yang masing-masing
memiliki lebih lanjut banyak teknik. Sebuah teknik tunggal tidak cocok untuk
semua jenis data untuk semua jenis domain. Kadang-kadang, teknik hybrid telah
diteliti dapat berkinerja lebih baik dibandingkan dengan yang murni.
Bab 3
APLIKASI DAN CONTOH KASUS DATA MINING

Data Mining terlahir lewat pengembangan Statistik dalam memecahkan


permasalahan terkini menggunakan teknologi terbaru. Data Mining memegang
peranan penting dalam berbagai aspek dalam kehidupan di masyarakat saat ini.

Pada bab ini berisi contoh bagaimana data mining digunakan di bidang
perbankan / keuangan, ritel, kesehatan, dan telekomunikasi. Tujuan dari bab ini
adalah untuk memberikan pengguna beberapa ide dari jenis-jenis kegiatan di
mana data mining telah digunakan oleh berbagai bidang usaha.

Berikut beberapa aplikasi dan penjelasannya Data Mining di berbagai bidang,


antara lain [10]:

1. Aplikasi Data-Mining di Bidang Perbankan dan Keuangan


2. Aplikasi Data-Mining di Retail
3. Aplikasi Data-Mining di Kesehatan
4. Aplikasi Data-Mining di Telekomunikasi

1. Aplikasi di Bidang Perbankan dan Keuangan


Data mining telah digunakan secara luas di pasar perbankan dan keuangan.
Dalam perbankan industri, data mining sering digunakan untuk model dan
memprediksi kredit penipuan, untuk mengevaluasi resiko,untuk melakukan
analisis kecenderungan, dan untuk menganalisis profitabilitas, serta untuk
membantu dengan pemasaran langsung kampanye. Di pasar keuangan, jaringan
saraf telah digunakan dalam stok-harga peramalan,dalam perdagangan option, di
peringkat obligasi, dalam manajemen portofolio, dalam prediksi harga komoditas,
dalam merger dan akuisisi, serta dalam meramalkan bencana keuangan. Beberapa
perusahaan keuangan yang menggunakan jaringan saraf dan telah dirujuk di
Internet adalah Daiwa Securities, NEC Corporation, Carl & Associates, LBS
Capital Management, Penasihat Investasi Walkrich, dan Saudara O'Sullivan
Investasi. Jumlah perusahaan investasi yang menggunakan data mining sejauh
lebih luas daripada sebelumnya, namun mereka tidak bersedia dirujuk. Salah satu
buku yang menarik di bidang keuangan Pasar global Neural Networks di ibukota,
diedit oleh Apostolos-Paul Refenes. Buku ini mengeksplorasi aplikasi ekuitas,
aplikasi pertukaran mata uang asing, aplikasi bond, dan kinerja ekonomi makro
dan perusahaan [10].

1.1 Stock Forecasting


Ada banyak aplikasi perangkat lunak di pasar yang menggunakan teknik data-
mining untuk prediksi saham. Salah satu aplikasi tersebut digunakan untuk
prediksi saham ditunjukkan pada Gambar 1.1, dibawah ini :

Gambar 1.1. Stock Forecasting [10]

NETPROPHET oleh Corporation Aplikasi Neural adalah aplikasi prediksi


saham yang menggunakan jaringan saraf. Dua garis yang ditunjukkan dalam
grafik pada Gambar 1.1. mewakili nyata dan nilai saham diprediksi. Dalam
perbankan, penggunaan paling luas dari data mining adalah di bidang deteksi
penipuan. HNC ini produk Falcon khusus membahas daerah ini. komentar HNC
tentang pendeteksian penipuan pada kartu kredit di tempat sekarang untuk
memantau lebih dari 160 juta pembayaran kartu rekening tahun ini. Mereka juga
mengklaim pengembalian atas investasi yang sehat. Sementara penipuan
menurun, rekening untuk aplikasi pembayaran kartu meningkat sebanyak 50% per
tahun. Meluasnya penggunaan data mining di bidang perbankan belum diketahui.
Pada tahun 1996, Bank Sistem & Teknologi berkomentar: "Data mining adalah
aplikasi yang paling penting dalam jasa keuangan pada tahun 1996."

Mencari perusahaan perbankan yang menggunakan data mining adalah tidak


mudah, mengingat kecenderungan mereka untuk tertutup. Berikut adalah daftar
perusahaan keuangan yang menggunakan data mining diperlukan beberapa
menggali ke dalam laporan SEC dari vendor data mining yang dibuat tersedia
untuk umum.

Daftar ini mencakup: Bank of America, USA Pertama Bank, Perusahaan


Headlands Mortgage, FCC National Bank, Federal Home Loan Mortgage
Corporation, Wells Fargo Bank, Bangsa-Banc Jasa, Mellon Bank NA, Advanta
Mortgage Corporation, Kimia Bank, Chevy Chase Bank, US Bancorp, dan USAA
Bank Tabungan Federal. Sekali lagi masuk akal untuk mengasumsikan bahwa
sebagian besar bank besar yang melakukan semacam data mining, meskipun
banyak memiliki kebijakan untuk tidak membahasnya [10].

1.2 Cross-Selling dan Loyalitas Pelanggan di Industri Perbankan

Lembaga keuangan yang paling utama memiliki statistik dan data-mining


kelompok. Bahkan, bank seperti Wells Fargo, Bank of America, Armada Bank,
dan lain-lain telah menjadi subyek dari banyak artikel tentang data mining
canggih mereka, dan pemodelan perilaku pelanggan mereka. Pertanyaan
berikutnya untuk bertanya adalah: seberapa baik lembaga keuangan tahu
pelanggan mereka? Sebuah studi yang diterbitkan dalam Berita DM dan dilakukan
oleh Deluxe Perusahaan menemukan bahwa 43% dari konsumen yang disurvei
mengatakan penyedia layanan keuangan mereka tidak tahu kebutuhan spesifik
mereka baik sekali, 60% mengatakan tawaran yang mereka terima tidak relevan
dengan kebutuhan mereka, dan 39% mengatakan mereka tidak menerima tawaran
sama sekali. Penelitian oleh Deluxe Korporasi menunjukkan masalah yang
signifikan dengan data mining: ketidakmampuan untuk memanfaatkan data-
mining studi menjadi hasil ditindaklanjuti.

Sebagai contoh, sementara bank mungkin tahu bahwa pelanggan memenuhi


kriteria tertentu cenderung untuk menutup akun mereka, itu adalah masalah lain
untuk mengetahui strategi untuk melakukan sesuatu tentang hal itu. Salah satu
vendor yang telah mengembangkan rangkaian produk yang dirancang untuk
mengintegrasikan teknologi prediktif dengan poin interaksi pelanggan adalah
Right Point software.Vendor lain bekerja pada masalah yang sama, khususnya di
web, di mana memprediksi apa yang pelanggan terbaik akan sangat merespon
penting. Perusahaan perbankan web seperti Jaminan Pertama dan BroadVision,
antara lain, juga berusaha untuk memasukkan satu persatu pemasaran, dengan
menggunakan teknologi prediksi, ke situs perbankan mereka.

Pemasaran The Right Point Real-Time Suite mengambil data-mining model


dan memanfaatkan mereka dalam real-time interaksi dengan pelanggan.
Pemasaran The Right Point Real-Time Suite Tepat dirancang untuk membuat,
mengelola, dan memberikan 1:1 promosi pemasaran untuk industri high touch
(seperti perbankan, telekomunikasi, dan penjualan ritel) yang mengandalkan
interaksi pelanggan langsung untuk melakukan bisnis. Untuk bisnis ini dan yang
sejenis, adalah penting untuk memastikan bahwa setiap interaksi pelanggan
merebut kesempatan untuk meningkatkan kepuasan pelanggan, loyalitas, dan
pendapatan-generasi potensial. Model prediksi yang digunakan untuk
mengevaluasi pesan pemasaran yang tepat untuk disampaikan kepada pelanggan.
Teknologi pembelajaran yang dinamis juga membangun model prediksi dengan
cepat dan menghitung probabilitas penerimaan, yang menunjukkan penawaran
yang diterima oleh yang jenis pelanggan. Model-model prediktif juga dapat
digunakan bersama dengan aturan bisnis untuk memberikan penawaran yang tepat
pada waktu yang tepat.

Salah satu aspek peluang pasar penentuan adalah mengidentifikasi pelanggan


bernilai tinggi. Dalam bukunya, Semua Konsumen Diciptakan Sama, penulis
Garth Hallberg mengutip Mark Media Research, Inc temuan bahwa sekitar
sepertiga dari akun pelanggan untuk 68% dari semua pembelian. Secara
tradisional, pemasar telah difokuskan pada segmentasi dan memikat bernilai
tinggi konsumen. Dimana pemasar mengambil jangka pendek dalam mengambil
keputusan bahwa pemahaman pelanggan bernilai tinggi dan menggunakan
informasi ini, untuk memprediksi kualitas yang akan meningkatkan nilai tingkat
menengah konsumen, membuka kesempatan (dan sebagian besar belum
dimanfaatkan) pasar yang besar.

Real-time marketing berfokus pada mengeksekusi satu persatyu promosi yang


memanfaatkan teknologi prediktif untuk menangkap selera personalisasi. Idenya
adalah bahwa dengan menyesuaikan pilihan pemasaran untuk konsumen,
perusahaan mendapatkan tingkat respons yang lebih baik untuk promosi mereka.

Sama pentingnya, bisnis sekarang memiliki outlet yang efektif untuk


membangun loyalitas dan nilai merek, dengan memasuki permintaan pelanggan
untuk layanan pribadi, dan keinginan mereka untuk menghindari kerumitan
melakukan riset penawaran layanan yang berbeda. Sebagai contoh, seorang
pelanggan hipotek dapat memberitahu bank pinjaman mengenai kredit mobil yang
ada. Seorang agen dari bank dapat menambahkan informasi ini ke profil
pelanggan, dan menyajikan kembali sebelum-disetujui oleh refinance dari kredit
mobil. Ini akan menghemat uang pelanggan dengan konsolidasi hipotek yang ada
dan kredit mobil dengan satu bank. Jika bank dapat menghitung penghematan
dengan cepat, pelanggan dapat melihat manfaat yang jelas [10].

2. Aplikasi Data-Mining di Retail


Margin Slim telah mendorong pengecer dalam merangkul data warehousing
lebih awal dari industri lain. Pengecer telah melihat peningkatan pendukung
keputusan proses mengarah langsung ke peningkatan efisiensi dalam manajemen
persediaan dan peramalan keuangan. Penerapan awal data warehousing oleh
pengecer telah memberi mereka kesempatan yang lebih baik untuk mengambil
keuntungan dari data mining. Rantai ritel besar dan toko kelontong menyimpan
sejumlah besar titik-of-sale data yang merupakan informasi yang kaya. Di garis
depan aplikasi yang telah diadopsi di ritel adalah aplikasi pemasaran langsung.
Pemasar langsung seringkali peduli tentang segmentasi pelanggan, yang
merupakan masalah clustering dalam data mining. Banyak vendor menawarkan
paket segmentasi pelanggan, seperti yang ditunjukkan pada Gambar 2.1.
perangkat lunak segmentasi Pelanggan, Courtesy of Software Pilot, dan Software
pilot juga menggunakan segmentasi pelanggan untuk membantu secara langsung-
mailing promosi, seperti yang ditunjukkan pada Gambar 2.2.
IBM telah menggunakan data mining untuk beberapa pengecer untuk
menganalisis pola belanja dalam toko berdasarkan informasi point of sale (POS).
Sebagai contoh, satu perusahaan ritel dengan $ 2 miliar dalam pendapatan,
300.000 UPC kode, dan 129 toko di 15 negara menemukan beberapa hasil yang
menarik setelah menganalisis informasi penjualan. Sebuah komentar eksekutif
toko: "Kami menemukan bahwa orang-orang yang datang ke toko condong ke sisi
kiri dari toko untuk item menggerakkan pro dan belum tentu berbelanja seluruh
toko." Informasi tersebut digunakan untuk mengubah aktivitas promosi dan
memberikan pemahaman yang lebih baik tentang bagaimana untuk lay out toko
dalam rangka mengoptimalkan penjualan.

Gambar 2.1 Perangkat Lunak Segmentasi Pelanggan Courtesy of Software Pilot


[10]
Gambar 2.2 Sebuah aplikasi untuk promosi pemasaran langsungCourtesy of
Software Pilot [10]

3. Aplikasi Data-Mining di Kesehatan


Data mining telah digunakan sudah secara luas dalam industri medis.
Misalnya, Sistem Neuro Medical menggunakan jaringan saraf untuk melakukan
pap smear bantuan diagnostik. Vysisuses menggunakan jaringan saraf untuk
melakukan analisis protein untuk pengembangan obat. The University of
Rochester Cancer Center dan Pusat Transplantasi menggunakan Oxford
Knowledge SEEKER, teknologi pohon keputusan, untuk membantu penelitian
mereka. The Southern California Spinal Disorders Hospital menggunakan
penemuan informasi untuk data mining. Penemuan informasi mengutip seorang
dokter yang mengatakan “Saat ini sendirian, saya datang dengan diagnosis untuk
pasien yang bahkan tidak harus melalui pemeriksaan fisik ".

3.1 Penggunaan Visualisasi Data di Industri Medis


Data visualisasi adalah salah satu bidang yang sudah membangun minat di
bidang medis. CrossGraphs produk Belmont Research telah digunakan dalam
berbagai aplikasi.
Ditunjukkan pada Gambar 3.1, adalah array dari grafik yang menunjukkan,
bersisian, cerita tentang aktivitas antibakteri Cefdinir dari waktu ke waktu.
Gambar 3.1 berguna untuk membandingkan tingkat kemanjuran dari patogen
antibakteri yang berbeda dari waktu ke waktu. Dalam kasus ini, zat antimikroba,
Cefdinir, sedang dipelajari terhadap zat lainnya untuk periode delapan jam [10].

Gambar 3.1. Keberhasilan Obat Antibakteri Selama Beberapa Waktu (Belmont


Research, Inc) [10]
4. Aplikasi Data-Mining di Telekomunikasi
Dalam beberapa tahun terakhir, industri telekomunikasi telah mengalami
salah satu makeover paling dramatis dari industri apapun. AS Telekomunikasi Act
of 1996 Perusahaan diperbolehkan Operasi Bell Daerah (RBOCs) untuk
memasuki pasar jarak jauh dan menawarkan "cablelike" layanan. The Liberalisasi
Eropa Jasa Telekomunikasi, efektif 1 Januari 1998, liberalisasi jasa
telekomunikasi di Eropa, dan menawarkan kompetisi penuh di antara negara-
negara Eropa yang berpartisipasi. Enam puluh delapan negara liberalisasi pasar
telekomunikasi mereka pada tanggal 1 Januari 1998 sampai bertepatan dengan
komitmen Eropa berdasarkan Perjanjian Telekomunikasi Organisasi Perdagangan
Dunia.
Tidak hanya telah ada deregulasi yang besar-besaran, namun di Amerika
Serikat, telah terjadi aksi jual oleh FCC dari gelombang radio kepada perusahaan
pelopor dengan cara baru untuk berkomunikasi. Industri seluler dengan cepat
mengambil langkah sendiri.
Data visualisasi daerah lain dengan menggunakan strategi banyak
telekomunikasi. Gambar 4.1 menunjukkan peta, yang diciptakan oleh
Pemberdayaan Geographics ® menggunakan teknologi MapInfo, menunjukkan
area masalah untuk jaringan telekomunikasi nirkabel [10].

Gambar 4.1. Sebuah Peta dari Titik-titik Jaringan Telekomunikasi Nirkabel yang
Menjatuhkan Panggilan [10]
4.1 Contoh Kasus Data Mining
Pada bagian ini, sebuah studi kasus singkat dibahas, sebagai contoh konkret
"praktik terbaik" tentang bagaimana metode data mining pendidikan untuk belajar
dekomposisi (sejenis Hubungan pertambangan) digunakan untuk menentukan
efektivitas relatif dari berbagai jenis materi pembelajaran disajikan kepada siswa.
Dalam Beck dan Mostow (2008), data yang diperoleh dari 346 siswa sekolah
Amerika SD membaca 6,9 juta kata, selama setahun, sementara guru
menggunakan perangkat lunak cerdas yang mengajarkan membaca. Kata-kata ini
disajikan dalam bentuk cerita, dan mahasiswa dan perangkat lunak yang
mengambil cerita bergantian memilih (pilihan perangkat lunak cerita didasarkan
pada perkiraan tingkat membaca siswa kelas). Beck dan Mostow tertarik dalam
menentukan apakah membaca ulang cerita (pilihan populer untuk anak-anak)
adalah lebih atau kurang efektif dalam mempromosikan kata belajar daripada
menghadapi kata yang sama dalam cerita yang berbeda. Mereka juga tertarik pada
apakah akan ada perbedaan-perbedaan individual, sehingga beberapa siswa akan
mendapat manfaat dari pola yang berbeda dari praktek daripada yang lain.
Beck dan Mostow memperoleh data untuk kinerja masing-masing siswa
dalam membaca setiap cerita dalam perangkat lunak. Waktu membaca digunakan
sebagai ukuran terus menerus pengetahuan kata, mis-membaca dan bantuan-
permintaan juga diperhitungkan, membaca peluang di mana perilaku terjadi
ditugaskan waktu 3,0 detik (99,9% dari kata membaca lebih cepat dari 3,0 detik) .
Model eksponensial praktek didirikan, terkait waktu respon untuk fungsi:
Time = A * e –b (W*t1+t2);
Dalam parameter ini, persamaan A mewakili prestasi siswa pada kesempatan
pertama untuk membaca kata yang diberikan, parameter b merupakan kecepatan
keseluruhan pembelajaran, e adalah 2,718, dan t1 dan t2 mewakili berapa kali kata
tersebut dibaca, dalam dua jenis yang berbeda praktek. Dalam kasus ini, t1
didefinisikan sebagai jumlah kali kata itu dibaca ketika kembali membaca cerita
dan t2 didefinisikan sebagai jumlah kali kata itu dibaca ketika membaca cerita
untuk pertama kalinya. W adalah mendapatkan kecepatan relatif yang terkait
dengan dua jenis praktek. Jika W sama dengan 1, dua jenis praktek dianggap sama
efektif, jika W di atas 1, peluang t1 jenis yang lebih efektif daripada peluang jenis
t2 (dan sebaliknya berlaku jika W adalah di bawah 1).
Seluruh populasi siswa, nilai rata-rata W untuk membaca kembali diperoleh
oleh Beck dan Mostow adalah 0,49, menunjukkan bahwa re-membaca cerita
mengarah ke sekitar setengah belajar sebanyak membaca cerita baru. 95 dari 346
siswa memiliki parameter W statistik signifikan di bawah 1, sedangkan hanya 7
siswa memiliki nilai parameter W statistik signifikan lebih dari 1, hasil yang
signifikan secara statistik di seluruh kelas.
Beck dan Mostow selanjutnya menggunakan nilai W dari model dalam
analisis regresi logistik berikutnya (contoh pada table 3.1.yaitu penemuan dengan
model). Dalam analisis ini, model dekomposisi pembelajaran digunakan untuk
membagi populasi menjadi siswa yang diuntungkan dari membaca ulang dan
siswa yang tidak mendapat manfaat dari membaca ulang, dan berbagai variabel
penjelas diuji untuk melihat apakah mereka menjelaskan siswa yang diuntungkan
dari membaca kembali. Analisis ini menetapkan bahwa siswa dengan kecepatan
membaca secara keseluruhan yang rendah maka menerima dukungan kebutuhan
belajar khusus, sebenarnya memperoleh manfaat dari membaca ulang [11].

Tabel/ilustrasi :

Tabel 1.1 Kategori-kategori Utama dari Data Mining Pendidikan

Kategori Metode Tujuan Metode Kunci Aplikasi


Ramalan Mengembangkan model Mendeteksi perilaku
yang dapat menyimpulkan mahasiswa (misalnya game
satu aspek data (variabel sistem, offtask perilaku,
diprediksi) dari beberapa tergelincir); Mengembangkan
kombinasi dari aspek- model domain, Memprediksi
aspek lain dari data dan memahami hasil siswa
(variabel prediktor) pendidikan
Pengelompokan Temukan titik data yang Discovery kategori pola
secara alami kelompok perilaku mahasiswa baru,
bersama-sama, membelah kesamaan Investigasi dan
data set lengkap ke set ke perbedaan antara sekolah
dalam seperangkat
kategori
Hubungan Mining Temukan hubungan antara Penemuan asosiasi kurikuler di
variabel urutan kursus; Menemukan
strategi pengajaran yang
menyebabkan lebih efektif /
kuat belajar
Penemuan dengan Sebuah model dari Penemuan hubungan antara
Model fenomena yang perilaku siswa, dan
dikembangkan dengan karakteristik siswa atau
ramalan, clustering variabel kontekstual, Analisis
pengetahuan, atau teknik, persoalan tersebut di berbagai
digunakan sebagai konteks
komponen dalam prediksi
lebih lanjut atau
Hubungan pertambangan.
Distilasi Data Data didestilasi untuk identifikasi Manusia pola
untuk Manusia mengaktifkan manusia dalam belajar siswa, perilaku,
keputusan dengan cepat atau kolaborasi; Pelabelan data
mengidentifikasi atau untuk digunakan dalam
mengklasifikasikan fitur perkembangan selanjutnya
dari data. model ramalan

5. Summary
Pada bab ini meliputi contoh industri data mining di bidang perbankan dan
keuangan, ritel, kesehatan, dan telekomunikasi dan contoh kasus penerapan data
mining pada pendidikan. Meskipun ini tentu bukan merupakan daftar termasuk
semua kegiatan datamining dan tidak memberikan contoh tentang bagaimana data
mining digunakan saat ini. Pada bab 4 akan membahas lebih spesifik tentang trend
data mining saat ini dan masa yang akan datang.
Bab 4
TOPIK LANJUTAN & TREND KE DEPAN

Sebagai bidang riset yang masih sangat muda sejak penemuan nya pada
tahun delapan puluhan, Data Mining telah banyak membantu untuk menggali
informasi yang terdapat pada data mentah yang di hasilkan baik itu dari suatu
sistem informasi maupun yang dari data yang di dapatkan melalui survey kepada
suatu objek tertentu. Dalam bab ini akan dibahas mengenai topik lanjutan dari
Data Mining beserta bagaimana trend Data Mining di masa mendatang.

1. Topik Lanjutan dari Data Mining


Beberapa aplikasi Data Mining yang telah ada telah mampu mencakup
banyak area dalam kehidupan sehari hari seperti area bisnis dan industri, biomedik
dan kesehatan, organisasi, politik, pencitraan dan tentunya dalam bidang science.

1.1 Intrusion Detection


Dalam perkembangan nya data mining telah di gunakan untuk mendeteksi
intrusi/serangan, dengan cara mencari penyusup dan mendeteksi penyalahgunaan,
dimana kesemua proses tersebut di lakukan dari secara internal. Dari pola yang di
hasilkan tools data mining bisa mengindikasikan apabila sistem telah atau akan di
penetrasi oleh seseorang dimana administrator akan melakukan review kembali
terhadap pola serangan tersebut dan menambahkan proteksi tambahan pada
sistem.

1.2 Identify Theft


Pemalsuan identitas untuk melakukan tindak kejahatan telah menjadi
permasalahan pada institusi sosial dan perbankan. Penipuan dengan menggunakan
identitas palsu marak terjadi, hal tersebut terjadi karena banyaknya orang yang
mampu untuk memalsukan identitas sehingga akan tampak bahkan sesuai dengan
aslinya. Dahulu mengidentifikasi pencurian atau penipuan terjadi apabila kejadian
tersebut sudah terjadi, usaha proaktif yang melibatkan pencarian data pribadi dan
rekord kredit secara manual untuk proses penyelidikan adalah sangat menyulitkan
dan tidak efisien karena data yang akan di analisa sangat banyak.
Dengan data mining pencarian tersebut bisa di otomatisasi dan tidak hanya
akan memberikan tanda kepada rekord yang invalid atau mencurigakan, tools data
mining juga bisa menciptakan model pola prilaku pencurian atau penipuan
sehingga pendekatan ini bisa memfasilitasi pengembangan dari strategi proaktif
dalam rangka untuk proses identifikasi pencurian [....]

1.3 Syndrome Surveilance


Sistem pengawasan Syndromic telah di kembangkan untuk mendeteksi
penyebaran penyakit menular dan bioterorisme, dengan mengunakan deteksi
anomali sistem ini mampu mendeteksi cluster gejala yang tidak biasa dan
perubahan tingkat penyakit yang tidak terantisipasi. Dengan mengembangkan
sistem deteksi anomali standar dan menambahkan rule keputusan yang tepat
kemampuan proses penyaringan data ini bisa maksimal dan menghasilkan
informasi yang tepat guna. [..]

1.4 Data Collection, Fusion dan Preposition


Kumpulan data, penggabungan berbagai macam data dan preposisi data
adalah tehnik mining sangat sangat mendukung surveilance atau pengawasan
terhadap suatu bidang tertentu. Banyak nya data yang ada baik itu data yang di
dapat dari pengawasan secara online maupun pengawasan secara offline,
membuat tingkat kesulitan untuk mendapatkan informasi penting yang di
butuhkan semakin tinggi.
Dengan adanya tools data mining, kesemua data yang ada baik yang di dapat
melalui pengawasan online maupun offline (pengawasan langsung) bisa di
gabungkan lalu kemudian di pilah pilah untuk mendapatkan beberapa data yang
bersifat krusial sehingga bisa di analisa secara menyeluruh untuk mendapatkan
knowledge discovery baru yang bisa di gunakan untuk menindaklanjuti
permasalahan yang ada. Dengan data mining suatu model pengawasan baru yang
lebih kompleks bisa di kembangkan yang bisa meliputi pengawasan gegografi
tertentu dan objek yang terisolasi dengan mengunakan gabungan sumberdaya data
dan tools data mining terkait.
Gambar 4.1. Model pengawasan dengan data mining yang menggabungkan
berbagai resource [..]

1.5 Text Mining


Kebutuhan analyst untuk text mining sudah sangat penting sekali, dan itu
telah membuat software developer berusaha untuk mengembangkan kemampuan
dari tools text mining yang sudah ada. Text mining bisa di gunakan untuk
menyeidiki kasus kasus yang mempunyai data berupa informasi tertulis, dari
informasi raw tersebut tools text mining kemudian mengidentifikasi key concept
yang ada lalu kemudian memberikan informasi baru yang berhasil di extraksi dari
informasi yang tidak terstruktur tersebut sekaligus membuatkan model informasi
yang dapat membantu analyst untuk memperkirakan penyebab kasus tersebut.

1.6 Fraud Detection


Bidang pengembangan data mining lain nya adalah untuk mendeteksi
penyimpangan. Dalam bidang ini beragam penyimpangan yang akan dan sedang
terjadi bisa di deteksi dengan model algoritma yang menggunakan tehnik
clustering dan deteksi anomali. Model algoritma tersebut bisa mengidentifikasi
pola atau prilaku yang menyimpang dari pola yang sudah ada, dan informasi baru
yang di hasilkan dari analisa pola tersebut bisa menpjadi bahan pertimbangan
untuk investigasi lebih lanjut.
Bidang perbankan dan keamanan adalah contoh dimana aplikasi data mining
for fraud detection banyak dipergunakan, banyak nya transaksi yang terjadi dalam
sehari pada bidang perbankan telah membuat data transaksi menjadi sulit untuk di
telusuri secara manual. Implementasi model algoritma seperti yang di sebutkan di
atas bisa membantu melakukan pembentukan model pola normal dan
pendeteksian terhadap pola yang menyimpang dari pola normal.
Demikian pula pada bidang keamaanan, dengan menggabungkan semua
informasi kejahatan dan menerapkan tehnik clustering dan deteksi anomali seperti
yang di sebutkan di atas, petugas bisa menentukan apakah kejahatan tersebut di
lakukan oleh orang yang sama, sekaligus memprediksi kapan kejahatan lain akan
terjadi sehingga bisa di lakukan tindakan pencegahan sekaligus menangkap pelaku
kejahatan.

1.7 Bio-Informatics & Medical Research


Saat ini berbagai tehnik dan tools data mining telah banyak di gunakan dalam
riset biologi dan medis, dalam riset tersebut hasil yang di harapkan adalah
informasi baru yang di hasilkan dari data yang ada. Penerapan data mining dalam
bio-informatics dan medical research lebih banyak kepada riset tentang pengaruh
DNA manusia terhadap suatu penyakit yang di derita seperti kanker, HIV dan
berbagai penyakit lain yang mempunya kemungkinan berkorelasi dengan DNA
[3]. Disamping menelusuri pengaruh genetika terhadap suatu penyakit,
penambangan data juga di lakukan pada DNA untuk menemukan pengobatan
terhadap penyakit mematikan seperti HIV dan kanker sekaligus mengalisa
penyebab kelainan fisik bawaan.

1.8 Business Trends


Perkembangan dunia usaha sangat dinamis pada saat ini membuat pelaku
usaha harus bereaksi secara cepat terhadap terhadap perubahan, lebih banyak
memberikan quality service guna mendapatkan profit yang di inginkan. Pada
sektor ini data mining berperan untuk membuat transaksi yang di lakukan oleh
konsumen menjadi semakin cepat dan akurat, penggunaan tehnik data mining
seperti classification, regression dan cluster analysis di gunakan untuk
menentukan keputusan yang tepat di samping menciptakan suatu lingkungan
usaha pintar (Business Inteligence) yang berbasis informasi [3].
2. Trend Ke Depan dari Data Mining
Data mining merupakan salah satu ilmu baru yang area cakupan nya sangat
luas tidak hanya terpaku pada engineering tapi sudah mencakup area seperti riset
biologi dan medis, riset ekosistem, security dan public safety, industri dan bahkan
penggalian informasi tersembunyi yang terdapat pada data tulisan sehingga akan
di dapatkan nya informasi baru.

2.1 Text Mining


Tools data mining seperti text mining merupakan tools yang sangat
menjanjikan untuk di aplikasikan kedalam analisa public safety dan security
mining, kemampuan nya untuk mengolah informasi tertulis dan mendapatkan
informasi baru dari informasi raw yang tidak terstruktur tersebut telah membuat
tools ini menjadi salah satu tools yang sangat banyak di gunakan oleh analyst.
Kedepan nya pengunaan text mining untuk mendapatkan knowledge
discovery akan banyak di gunakan karena kemampuan nya dan proses mining
yang cepat dan terotomasi. Institusi yang bergerak dalam bidang keamanan akan
banyak mempergunakan text mining guna mendukung intelligence analysis yang
perlu di lakukan. Berbagai macam knowledge discovery yang di hasilkan oleh text
mining pada security analisyst dapat pula di pergunakan oleh institusi lain untuk
mendukung pekerjaan mereka dan sebalik nya, sehingga akan tercipta suatu
gudang data / informasi yang merupakan data sentral yang bisa di akses oleh
beragam institusi guna mendapatkan informasi baru yang di butuhkan.
Beragam tools lain seperti seperti voice recognition dan translation software
bisa di integrasikan kedalam text mining sehingga bisa menyediakan layanan
realtime analytical support melalui text mining dalam fusion center kepada
pengguna kapan saja dan dimana saja tanpa menghabiskan banyak waktu untuk
mengumpulkan data dan menginput data [..].
Gambar 4.2. Ilustrasi model konseptual dari pemberian analisa informasi kepada
proses operasional [..]

Dari gambar konseptual di atas berdasarkan data yang di dapat dari hasil
interview lalu di lakukan pencarian dengan menggunakan tools voice recognition
dimana input dari voice recognition akan di proses menggunakan metode text
mining. Knowledge discovery yang di hasilkan lalu di analisa dalam analytical
fusion center dimana informasi external juga bisa di dapatkan dari fusion center
yang lain guna memperkaya dan melengkapi informasi yang di perlukan. Setelah
di analisa dalam fusion center, scoring algorithm bertugas untuk memberikan
ranking kepada informasi baru yang di hasilkan setelah proses perankingan lalu di
tetapkan strategi interview yang sesuai dan kemudian strategi tersebut akan di
bawa pada proses interview kembali.

2.2 Image Data Mining


Semantic dan image mining di perkirakan akan menjadi trend kedepan, dalam
hal ini analyst bisa menemukan informasi tersembunyi dalam data gambar
menggunakan kecerdasan buatan dan structural analysis software, karakteristik
atau pola yang terkandung dalam gambar bisa di identifikasi dan informasi
keluaran nya bisa di pergunakan untuk kemajuan dalam bidang science lain nya
dan tentunya business sectors [2].

2.3 Data Mining dalam Industri Keuangan


Menggali informasi dari data yang ada pada bursa saham dan pasar valas
tentunya akan sangat sulit di kerjakan karena banyak nya data dan faktor faktor
lain yang dapat menciptakan perubahan terhadap data, penggunaan tools dan
tehnik data mining dalam bidang tersebut akan sangat membantu para brooker
untuk mendapatkan informasi penting yang sangat mereka butuhkan [3].
Tujuan penggunaan data mining dalam area ini adalah untuk mendapatkan
lebih banyak profit melalui prediksi yang lebih akurat yang didapat dari analisa
pola dan model sehingga keputusan yang di ambil bisa berdasarkan sumber
informasi yang terpercaya.

2.4 Mendeteksi Gangguan Ekosistem


Ekosistem adalah suatu area study yang luas yang mencakup remote sensing,
earth-science, biosphere, study kelautan, dan prediksi ekosistem, dalam bidang ini
data mining di gunakan untuk mendapatkan pola yang tejadi pada ekosistem,
sehingga bisa di tarik informasi baru atau kesimpulan tentang siklus bumi yang
terjadi [3]. Informasi mengenai perubahan keadaan tanah, pergerakan air laut, dan
informasi tentang ekosistem lain akan menjelaskan tentang kejadian alam luar
biasa seperti gempa bumi, tsunami, badai es, dan pencairan es kutub serta
peninggian level air laut dari tahun ke tahun.

2.5 Fusion Centre


Beragam informasi yang di hasilkan oleh beberapa bidang tertentu,
berkemungkinan akan berguna bagi suatu bidang lain nya. dimana informasi
tersebut bisa berguna apabila di lakukan analisa menyeluruh dengan metode
metode yang terdapat pada data mining.
Karena data dari beberapa bidang saling memiliki korelasi, maka terciptalah
ide untuk menggabungkan semua data tersebut kedalam sentral data (Fusion
Centre) [..]. Fungsi analitis yang yang di hadirkan oleh fusion centre memiliki
keterbatasan hanya pada pencarian repository data dan penciptaan statistik, dari
pusat gabungan data ini bisa di buat suatu tools untuk melakukan analisa prediktif
untuk melakukan analisa terhadap repository yang ada.

Gambar 4.3. Ilustrasi informasi dari tools konseptual yang berisi inti analisa dan
fusion centre [..]

Dari gambar di atas menunjukan susunan node yang saling berhubungan yang
di dukung oleh suatu fusion centre, dimana model di atas sudah menggunakan
analytic filter untuk memproses data menjadi informasi yang dapat mendukung
suatu keputusan. Node di atas melambangkan informasi yang terhubung dengan
fusion center dimana pembaharuan informasi tersebut akan selalu di teruskan ke
fusion center.

2.6 Virtual Warehouse


Pembuatan data warehosue dapat menghabiskan banyak biaya dan juga tidak
mampu memberikan kecepatan proses yang di butuhkan analyst keamanan.
Banyaknya informasi yang ada pada word wide web telah memungkinan
terciptanya virtual warehouse yang mampu memberikan yang tidak bisa di
berikan oleh data warehouse tradisional. Semua informasi dari virtual warehouse
dapat di refresh dan update secara mudah sehingga selalu mampu memberikan
knowledge discovery yang baru kepada pengguna nya.
3. Summary
Perkembangan tehnik data mining dari semenjak di temukan nya telah
berhasil mencakup area study yang sangat luas, dimana pada masing masing area
study tehnik data mining mampu membantu memberikan solusi terbaik yang di
dapat dari pengolahan data dan pengetahuan baru (discovery knowledge).
DAFTAR PUSTAKA

[1] de Ville, Barry. 2001. The Discovery and Delivery of Knowledge for
Effective Enterprise Outcomes: Knowledge Management. Sidney:
DigitalPress.
[2] Hand, David, Heikki Mannila and Padhraic Smith. 2001. Principles of Data
Mining. Massachusets: The MIT Press.
[3] Han, Jiawei and Micheline Kamber. 2006. Data Mining: Concepts and
Techniques. California: Morgan Kauffman Publishers.
[4] McCue, Colleen. 2006. Data Mining and Predictive Analysis: Inteligence
Gathering and Crime Analysis. Oxford: Butterworth-Heinemann.
[5] Dr. Rajni Jain, Introduction to Data Mining Techniques. Tersedia online :
http://www.iasri.res.in/ebook/expertsystem/DataMining.pdf. Diakses tang-
gal : 23 Februari 2013.
[6] http://www.ibm.com/developerworks/opensource/library/ba-data-mining-
techniques/index.html?ca=drs-. Diakses tanggal : 24 Februari 2013.
[7] http://www.theiia.org/intAuditor/itaudit/archives/2006/august/data-mining-
101-tools-and-techniques/. Diakses tanggal : 24 Februari 2013.
[8] http://en.wikipedia.org/wiki/Data_mining. Diakses tanggal : 24 Februari
2013.
[9] Vikram, Karimella, Niraj Upadhayaya, 2011, Data Mining Tools and
Techniques: a review, www.iiste.org. Diakses tanggal : 24 Februari 2013.
[10] Industry Application of Data Mining. Tersedia online : http://www.pearson-
highered.com/samplechapter/0130862711.pdf. Diakses tanggal : 23 Februari
2013.
[11] Baker, Ryan S.J.d. Data Mining for Education. Carnegie Mellon University,
Pittsburgh, Pennsylvania, USA.
[12] Witten, Ian H. Text Mining. Tersedia online : http://www.cs.waikato.ac.nz/~
ihw/papers/04-IHW-Textmining.pdf. Diakses tanggal : 22 Februari 2013.
[13] http://invensis.net/blog/industry-news/data-mining-future-trends-predicted-
2012. Diakses tanggal : 20 Februari 2013.
[14] Kumar, Dharminder and Deepak Bhardwaj. “Rise of Data Mining: Current
and Future Application Area”. International Journal of Computer Science
Issues, vol.8, Issue 5. 2011. Tersedia online : http://www.cs.xu.edu/csci390/
12s/RiseofDataMining.pdf. Diakses tanggal : 20 Februari 2013.