Disusun oleh :
Ryan Apriyansyah
58413145
Kelas :
3IA13
KATA PENGANTAR
Puji syukur kehadirat Tuhan Yang Maha Esa yang telah memberikan taufik dan
hidayahnya, sehingga kami mampu menyelesaikan makalah ini dengan judul Data Mining.
Namun penyusun menyadari bahwa dalam penyusunan makalah ini masih jauh dari
kesempurnaa. Maka dari itu penyusun mengharapkan saran dan kritik yang sifatnya membangun
kesempurnaan makalah ini.
Dalam penyusunan makalah ini tidak lepas dari berbagai pihak. Dari itu penyusun
menyampaikan rasa terimakasih kepada semua pihak yang telah membantu sehinnga makalah ini
dapat diselesaikan tepat pada waktunya.
Semoga makalah ini bermanfaat bagi penulis pada khususnya dan bagi pembaca pada
umumnya.
DAFTAR ISI
HALAMAN JUDUL
KATA PENGANTAR
DAFTA R ISI
BAB I PENDAHULUAN
A. Latar Belakang
B. Tujuan
C. Rumusan Masalah
BAB II PEMBAHASAN
A. Pengertian Data Mining
B. Fungsi dan Tujuan Data Mining
1. Fungsi Data Mining
2. Tujuan Data Mining
C. Penerapan Data Mining
D. Metodologi Data Mining
E. Proses Data Mining
F. Teknik Data Mining
G. Contoh Kasus
BAB III PENUTUP
A. Kesimpulan
B. Saran
DAFTAR PUSTAKA
BAB 1
PENDAHULUAN
A. Latar Belakang
Penyimpanan dokumen secara digital berkembang dengan pesat seiring meningkatnya
penggunaan komputer. Kondisi tersebut memunculkan masalah untuk mengakses informasi yang
diinginkan secara akurat dan cepat. Oleh karena itu, walaupun sebagian besar dokumen digital
tersimpan dalam bentuk teks dan berbagai algoritma yang efisien untuk pencarian teks telah
dikembangkan, teknik pencarian terhadap seluruh isi dokumen yang tersimpan bukanlah solusi
yang tepat mengingat pertumbuhan ukuran data yang tersimpan umumnya. Pencarian informasi
(Information Retrieval) adalah salah satu cabang ilmu yang menangani masalah ini yang
bertujuan untuk membantu pengguna dalam menemukan informasi yang relevan dengan
kebutuhan mereka dalam waktu singkat. Aplikasi pencarian informasi yang telah ada salah
satunya adalah web mining untuk pencarian berdasarkan kata kunci dengan teknik clustering.
Selain itu, pada dokumen dilakukan juga text mining dan perhitungan jumlah kata, dari jumlah
kata tersebut dilakukan pengklusteran dengan metode CLHM (Centroid Linkage Hierarchical
Method). Untuk jumlah klusternya, pemakai tidak mengetahui berapa jumlah yang tepat untuk
mengklusterkan dokumen-dokumen tersebut. Untuk itu, dipakailah metode Hill Climbing yang
bertugas untuk melakukan identifikasi terhadap pergerakan varian dari tiap tahap pembentukan
kluster dan menganalisa polanya sehingga jumlah kluster akan terbentuk secara otomatis.
Penggunaan text mining, pengklusteran dengan CLHM dan proses Hill Climbing Automatic
Clustering sangat memudahkan pemakai karena menghasilkan kluster secara otomatis dan tepat
dengan waktu yang cepat.
B. Tujuan
1. Untuk memenuhi tugas mata kuliah Sistem Basis Data 2.
2. Untuk mengetahui lebih luas tentang Data Mining.
3. Untuk menambah nilai mata kuliah Sistem Basis Data 2.
C. Rumusan Masalah
1. Apa yang dimaksud dengan Data Mining ?
2. Apa fungsi dan tujuan dari Data Mining ?
3. Bagaimana penerapan Data Mining dalam kehidupan?
BAB II
PEMBAHASAN
A. Pengertian Data Mining
Banyak sekali definisi mengenai apa itu data mining. Data mining merupan suatu alat
yang memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah yang
besar. Pengertian yang lebih khusus dari data mining, yaitu suatu alat dan aplikasi menggunakan
analisis statistik pada data. Data mining adalah suatu proses ekstraksi atau penggalian data dan
informasi yang besar, yang belum diketahui sebelumnya, namun dapat dipahamidan berguna dari
database yang besar serta digunakan untuk membuat suatu keputusanbisnis yang sangat penting.
Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk
menemukan pola-pola yang tidak diketahui pada data yang telah dikumpulkan. Data mining
memungkinkan pemakai menemukan pengetahuan dalam data database yang tidak mungkin
diketahui keberadaanya oleh pemakai.
Data mining merupakan proses semi otomatik yang menggunakan teknik statistik,
matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi
informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. (Turban et
al, 2005 ). Data mining adalah bagian dari proses KDD ( Knowledge Discovery in Databases)
yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data
mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai
pangkalan data.
Dalam proses menerapkan metode ini untuk data dengan maksud untuk mengungkap
pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola
dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi
informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran,
pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun
oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan
penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan
riset pasar. Alasan utama untuk menggunakan data mining adalah untuk membantu dalam
analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui
keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis
mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh
hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi
masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan
lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang
melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi
desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining
dalam penerapannya antara lain: clustering, classification, association rule mining, neural
network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining
adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar.
Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakaiuntuk data skala
kecil saja.
Classification
Classification, yaitu menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh:
pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan yang lain.
b. Clustering
Clustering, yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau produkproduk yang mempunyai karakteristik khusus(clustering berbeda dengan classification,
dimana pada clustering tidak terdapat definisi-definisi karakteristik awak yang di berikan
pada waktu classification.)
c.
Association
Association, yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada
suatu waktu, seperti isi-isi dari keranjang belanja.
d. Sequencing
Forecasting
Forecasting memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan
sekumpulan data yang besar, seperti peramalan permintaan pasar.
Exploratory
Menganalisis data untuk hubungan yang baru yang tidak di harapkan, seperti halnya pola apa
yang cocok untuk kasus penggelapan kartu kredit.
Solusi yang dapat diselesaikan dengan data mining diantaranya: Perencanaan keuangan
dan evaluasi aset, perencanaan sumber daya (resource planning), persaingan
(competition).
c. Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan
transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual
d. Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan
data mining untuk menambang triliyunan dari berbagai subyek seperti property, rekening
bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan
yang mencurigakan (Seperti money laundry)
e. Asuransi
Australian
Health
Insurance
Commision
menggunakan
data
mining
untuk
mengidentifikasi layanan lesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan
oleh peserta asuransi.
f. Olahraga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan
NBA ( jumlah shots blocked, assists dan fouls ) dalam rangka mencapai keunggulan
bersaing ( competitive advantage ) untuk tim New York Knicks dan Miami Heat.
b. Data Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data yang
berulang(multiple data), file-file yang berulang(multiple file), dapat dikombinasikan dan
c.
Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan
knowledge base.
a.
Predictive modeling, ada dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:
Classification
Digunakan untuk membuat dugaan awal tentang class yang spesifik untuk setiap record
dalam database dari satu setnilai class yang mungkin
Value Prediction
Digunakan untuk memperkirakan nilai numeric yang kontinu yang trasosiasi dengan
record database. Teknik ini menggunakan teknik statistic klasik dari linier regression dan
nonlinier regression.
b. Database segmentation
Tujuan dabase segmentation adalah untuk mempartisi database menjadi sejumlah segmen,
cluster, atau record yang sama, dimana record tersebut diharapkan homogen.
c.
Link analysis
Tujuan link analysis adalah untuk membuat hubungan antara record yang individual atau
sekumpulan record dalam database. Aplikasi pada link analysis meliputi product affinity
analysis, direct marketing, dan stock price movement.
d. Deviation detection
Teknik ini sering kali merupakan sumber dari penemuan yang benar karena teknik ini
mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang telah diketahui
sebelumnya. Operasi ini dapat ditampilkan menggunakan teknik statistik dan visualisasi.
Aplikasi deviation detection misalnya pada deteksi penipuan dalam penggunaan kartu kredit
dan klaim asuransi, quality control, dan defect tracing.
Dalam data mining terdapat dua tipe teknik yaitu:
1. Teknik Klasik (Classical Technique) yang terdiri atas:
a.
Statistic
Statistik adalah cabang ilmu matematika yang mempelajari tentang sekumpulan dan
deskripsi data yang akan digunakan dalam membuat laporan tentang informasi yang
penting agar seseorang dapat membuat keputusan yang berguna. Salah satu
keuntungan statistik adalah menampilkan database dalam tampilan ber-level tinggi
yang menyediakan informasi-informasi yang berguna tanpa perlu mengerti setiap
record secara detail.
b. Nearest Neighbour
Teknik prediksi pengelompokan dan nearest neighbour merupakan teknik yang tertua
yang digunakan dalam data mining. Nearest neighbour merupakan teknik prediksi
yang hampir sama dengan pengelompokan, untuk memperkirakan apakah nilai
prediksi ada dalam satu record, mencari kesamaan nilai prediktor didalam basis data
historis dan menggunakan nilai prediksi dari record yang Terdekat untuk tidak
membagi-bagikan record.
c.
Pengelompokan (Clustering)
Pengelompokan merupakan metode yang mengklasifikasikan data kedalam
kelompok-kelompok berdasarkan kriteria masing-masing data. Biasanya,teknik ini
dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa yang
telah terjadi didalam basis data. Pengelompokan terkadang digunakan untuk
segmentasi.
Pohon keputusan merupakan model prediktif yang dapat digambarkan seperti pohon,
dimana setiap node didalam struktur pohon tersebut mewakili sebuah pertanyaan
yang digunakan untuk menggolongkan data. Struktur ini dapat digunakan untuk
membantu memperkirakan kemungkinan nilai setiap atribut data.
Beberapa hal menarik tentang tree:
a.
Tree ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun.
Jumlah total record pada node parent sama dengan jumlah total record yang ada
node children.
Mudah untuk menggunakan model ini jika kita mempunyai target pelanggan
yang sepertinya tertarik dengan penawaran marketing.
Dari perspektif bisnis, decision tree dapat dilihat sebagai pembuatan segmentasi dari
data set yang orisinil. Segmentasi ini dilakukan untuk beberapa alasan tertentu,
misalnya untuk prediksi dari beberapa potong informasi penting. Meskipun decision
tree sendiri dan algoritma yang membuat decision tree itu mungkin saja sangat
kompleks, namun hasil yang ditampilkan dengan cara yang mudah dimengerti sangat
membantu untuk pengguna bisnis. Decision tree sering kali dikembangkan untuk
statistican dalam mengotomatisasi proses menentukan field mana dari database
mereka yang benar-benar berguna untuk terkorelasi dengan masalh tertentu yang
sedang mereka usahakan untuk mengerti. Karena itu, algoritma decision tree
cenderung mengotomatisasi seluruh proses pembuatan hipotesis dan kemudian
melakukan validasi yang lebih komplit dalam cara yang lebih terintegrasi dibanding
dengan teknik data mining lainnya.
Decision tree biasanya digunakan untuk berbagai kebutuhan:
a.
Eksplorasi
Teknologi decision tree dapat digunakan untuk eksplorasi data set dan masalah
bisnis. Hal ini biasanya dilakukan dengan mencari predictor dan nilai yang dipilih
untuk setiap bagian/cabang dari tree tersebut.
b. Preprocessing data
Teknologi ini juga dapat digunakan untuk mengolah daan memproses data yang
dapat digunakan pada algoritma lain, misalnya neural network, nearest neighbour,
dan lain-lain. Hal itu karena algoritma lain memerlukan waktu yang relatif lama
untuk dijalankan jika terdapat jumlah predictor dalam jumlah besar untuk
digunakan sebagai model sehingga teknik decision tree biasanya digunakan pada
tahap pertama data mining untuk menciptakan subset yang berguna dari predictor
baru kemudian hasil tersebut akan dapat dimasukkan pada teknik data miing yang
lain.
c.
Prediksi
Para analis menggunakan teknik ini untuk membangun sebuah model prediktif
yang efektif.
Decision tree mempunyai beberapa keuntungan sebagai berikut :
a.
Decision tree dapat melakukan validasi terhadap model dengan tes statistik.
Hal itu akan memungkinan untuk menghitung reliabilitad model.
Decision tree merupakan teknik yang kuat, dapat bekerja baik dengan data yang
besar dalam waktu yang singkat.
G. Contoh Kasus
Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence
perusahaan.
Pembangunan perangkat lunak data mining dengan metode clustering menggunakan algoritma hirarki
divisive untuk pengelompokan customer dalam studi kasus ini, fungsi fungsi yang dipakai adalah fungsi
untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok customer.
Langkah 1.
Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada berdasarkan transaksi
yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari semua data yang ada dalam tabel
frekuensi transaksi. Pada langkah ini digunakan perhitungan nilai rata-rata (mean) karena untuk
mengantisipasi adanya nilai outline (nilai yang letaknya sangat jauh dari data yang ada) dari data yang
ada dalam tabel frekuensi. Contoh perhitungan dari sample data frekuensi transaksi customer, adalah
sebagai berikut:
Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi paling kecil sampai ke
frekuensi terbesarnya, yaitu sebagai berikut:
Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2,4,5,5,6,7,11,11,15. Maka perhitungan pada
langkah I ini adalah sebagai berikut:
Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel frekuensi.
= 0+0+0+0+0+0+0+0+0+1+1+1+1+1+1+1+2+2+2+4+5+5+6+7+11+11+15/30
= 2.56666666667.
= 2.56666666667.
Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya, kemudian titik titik pusat
tersebut digunakan untuk menarik anggota dari semua nilai data yang ada pada tabel frekuensi dengan
menggunakan sistem perhitungan jarak kedekatan setiap data dengan masing-masing titik pusat
tersebut.Perhitungan jarak kedekatan dalam langkah 1 ini ditentukan dengan perhitungan selisih antar
titik pusat dibagi 2, kemudian hasil selisih titik pusat tersebut ditambahkan pada titik pusat yang lebih kecil
dan dikurangkan dengan titik pusat yg lebih besarnya, sehingga bisa diambil kesimpulan bahwa datadata yang berada dalam rentang titik pusat tersebut merupakan anggotanya.
Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi :
= 5.675
Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang titik frekuensi data : 1.920
anggota cluster titik pusat 2 < 5.675
Langkah 2.
Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini dilakukan pengecekan
ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan nilai median (perhitungan
nilai tengah). Pemakaian perhitungan nilai median karena semua data yang ada sudah diketahui pada
langkah1, sehingga tidak ada kekhawatiran munculnya data outline. Contoh perhitungan pada langkah 2
berdasarkan semua data yang ada pada halis langkah I adalah sebagai berikut:
Titik pusat 1
Membaca semua data anggota klaster ini pada langkah I, yaitu: 0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2
Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2 digunakan perhitungan dengan
langkah sebagai berikut:
a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I
Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item
b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai tengah)
untuk mengecek titik pusat pada langkah 1
Jika Nilai sisa bagi = 19mod2 = 1
Karena sisa bagi dari total item 1, maka perhitungan titik pusat
= ((19/2) +((19/2)-1)/2
= 9 nilai tengahnya berada diantara item ke 9 yang dibaca dari awal data dan akhir data dari
anggota klaster 1 pada langka I
=[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2]
Jadi nilai titik pusat satu pada langkah II adalah 1.
Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik pusat satu pada langkah I,
dimana nilai 1 1.283333333335 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.
Titik pusat 2
Titik pusat 3
Titik pusat 1
Titik pusat 2
Rentang terendah = 5 - 1 / 2 = 2
Maka rentang terendah = 5 2 = 3
Rentang tertinggi : 11 5 / 2 = 3
Maka rentang teringgi = 5 + 3 = 8
Sehingga rentang anggota titik pusat 2 data frekuensi bernilai 3 anggota klaster 2 pada langkah
Titik pusat 3
PENUTUP
A. Kesimpulan
Pada proses Data Mining hal yang paling penting adalah pada tahap Data Mining
dengan menggunakan teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial
yang berguna.
1) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang bisa dicari dari
seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode perhitungan nilai rata
rata (mean) ataupun perhitungan nilai tengah (median).
2) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh manager terhadap customer
customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan promosi kebeberapa
customer yang berada diklaster kurang aktif dan sedang ataupun keputusan untuk memberikan fasilitas
yang lebih exclusive maupun pemberian bonus atau diskon kepada customer yang berada di klaster
yang aktif.
B. Saran
Berikut adalah saran yang mungkin perlu dilakukan dalam pengembangan
selanjutnya dimasa yang akan datang terhadap aplikasi data mining dengan
metode clustering:
demikian klaster yang dibentuk tidak hanya tiga klaster tapi mungkin lebih
dari pada itu dan informasi yang didapatkanpun menjadi lebih banyak.
DAFTAR PUSTAKA
Indrajani,S.Kom.,MM.(2011).Pengantar
dan
Sistem
Basis
Data.PT
Elex
Media
Komputindo,Jakarta.
wikipedia, Data Mining, http://en.wikipedia.org/wiki/Data_mining
Iko Pramudiono, Pengantar data mining: Menambang Permata Pengetahuan di Gunung Data,
http://ilmukomputer.com
Yudo Giri Sucahyo, Penerapan data mining: Permasalahan apa saja yang bisa diselesaikan?,
http://ilmukomputer.com
Noor Rindho, Suzuki Syofian, Implementasi Data Mining dengan Metode Clustering untuk melakukan
Competitive Intelligence perusahaan